Organização e Gerenciamento de Conteúdos Jornalísticos Na Web Semântica

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS SOCIAIS E HUMANAS PROGRAMA DE PS-GRADUAO EM COMUNICAO
ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA
DISSERTAO DE MESTRADO
Iuri Lammel
Santa Maria, RS, Brasil 2011
ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA
Iuri Lammel
Dissertao apresentada ao Curso de Mestrado do Programa de Ps-Graduao em Comunicao, rea de concentrao em Comunicao Miditica, da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para obteno do grau de Mestre em Comunicao Miditica
Orientadora: Profa. Dr. Luciana Mielniczuk
Santa Maria, RS, Brasil 2011
Universidade Federal de Santa Maria Centro de Cincias Sociais e Humanas Programa de Ps-Graduao em Comunicao
A Comisso Examinadora, abaixo assinada, aprova a proposta de qualificao da dissertao de Mestrado
ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA elaborada por Iuri Lammel
Como requisito parcial para obteno do grau de Mestre em Comunicao
COMISSO EXAMINADORA: __________________________________

Dr. Luciana Mielniczuk (UFSM) (Presidente / Orientadora)
__________________________________
Dr. Suzana Barbosa (UFBA)
__________________________________
Dr. Giovani Rubert Librelotto (UFSM)
Santa Maria, dezembro de 2011.
AGRADECIMENTOS
Agradeo, em primeiro lugar, aos meus pais, que alm de me apoiarem com carinho, sustentaram meus estudos at o final da graduao. Aos meus colegas de mestrado, que sempre apoiaram uns aos outros em momentos de dvidas de e aflio e que nunca deixaram o nimo cair nestes dois anos de pesquisa. Universidade Federal de Santa Maria (UFSM), instituio pblica de ensino superior que me formou gratuitamente e com qualidade em diversos nveis de educao: desde o curso tcnico at a ps-graduao. A dois grupos de pesquisa em jornalismo: o Grupo Jornalismo Digital (JORDI), da UFSM, em que participei desde o perodo de graduao e que me auxiliou no enriquecimento acadmico e intelectual; e o Grupo de Pesquisa em Jornalismo On-line (GJOL), da UFBA, que, embora eu nunca tenha participado, foi fundamental na minha formao como pesquisador em jornalismo digital, devido a sua rica produo cientfica na rea. Ao Centro Universitrio Franciscano (UNIFRA), que me acolheu como profissional, acreditou e apostou em meu potencial como professor e h mais e trs anos me proporciona uma realizao profissional ao me oportunizar o exerccio da docncia com plena liberdade e confiana. A minha professora orientadora, Luciana Mielniczuk, que no apenas orientou minha dissertao, como tambm foi a principal responsvel por me direcionar ao caminho da pesquisa em jornalismo digital. Alm, claro, de me proporcionar uma grande amizade. Obrigado pelas orientaes que recebo desde 2004 e pela compreenso (e pacincia!) em relao s minhas limitaes neste processo de gerar uma dissertao. Aos visionrios que contriburam, cada um com sua valiosa parte, para o desenvolvimento do hipertexto, da internet e da web: Vannevar Bush, Ted Nelson, Douglas Engelbart, Bob Kahn, Vinton Cerf, Robert Cailliau e Tim Berners-Lee, entre outros que so, para mim, modelos que adoto como exemplo profissional, acadmico e cientfico. Por fim, em especial, agradeo a minha companheira, Laura Cortes, que suportou perodos de ausncias e desnimos de um estudante de mestrado que tambm enfrenta uma rotina de trabalho dirio. Agradeo pela compreenso, pelo apoio e pelo amor demonstrados nestes anos.
RESUMO Dissertao de Mestrado Programa de Ps-Graduao em Comunicao Universidade Federal de Santa Maria ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA Autor: Iuri Lammel Orientadora: Luciana Mielniczuk
Entre as tecnologias que transformaram o jornalismo digital desde o seu surgimento, destacam-se duas: a World Wide Web (web), rede de documentos digitais que serviu como plataforma prtica jornalstica na internet e determinou as trs fases evolutivas do jornalismo digital; e as bases de dados, que, agregadas web, se tornaram a principal tecnologia estruturante dos produtos jornalsticos na fase de transio entre a terceira e a quarta gerao do jornalismo digital. No ano de 2001, o cientista Tim Berners-Lee, inventor da web, publicou um artigo com a proposta de uma expanso para esta rede, a qual foi denominada Web Semntica. O artigo propunha uma mudana no conceito da web: da tradicional rede de documentos para uma rede de dados, com capacidade para representar conceitos reais, como pessoas, lugares e objetos. Um grande diferencial desta proposta que os computadores teriam capacidade para interpretar tais dados e identificar seus significados. Em uma rede semntica, as informaes poderiam ser organizadas e gerenciadas de forma mais eficiente e automatizada, e as conexes entre dados seriam mais ricas do que atravs dos atuais links entre documentos. O conceito de Web Semntica ainda est em fase de amadurecimento, mas j possvel encontrar em funcionamento produtos digitais que aplicam tal conceito. A proposta desta pesquisa analisar dois casos que aplicam o conceito da Web Semntica no jornalismo digital, mais especificamente na organizao e no gerenciamento das informaes jornalsticas. Para o embasamento terico da investigao, foi realizada uma reviso bibliogrfica sobre o jornalismo digital, sobre o paradigma do Jornalismo Digital em Base de Dados (JDBD) e sobre o funcionamento das tecnologias empregadas na Web Semntica, tais como o RDF e as ontologias. A pesquisa apresenta carter exploratrio e emprega como estratgia de investigao o estudo de caso, especificamente dos sites BBC World Cup 2010 e BBC Wildlife. A anlise foi realizada a partir de oito categorias aplicveis ao estudo do JDBD. Entre os resultados, constatado que a Web Semntica potencializa algumas das caractersticas do JDBD, principalmente devido automatizao. Alm disso, foi identificado nos casos estudados que a interoperabilidade automatizada foi o benefcio mais vantajoso da Web Semntica em relao s tecnologias at ento utilizadas no jornalismo digital, e que pode se tornar uma ruptura caso o projeto de Web Semntica obtenha xito.
Palavras-chave: Web Semntica, jornalismo digital, Jornalismo Digital em Base de Dados, BBC.
ABSTRACT Dissertao de Mestrado Programa de Ps-Graduao em Comunicao Universidade Federal de Santa Maria ORGANIZATION AND MANAGEMENT OF JOURNALISTIC CONTENT ON THE SEMANTIC WEB Author: Iuri Lammel Adviser: Luciana Mielniczuk
Among the technologies that have modified the digital journalism since its inception, there are two that can be highlighted: 1) the World Wide Web (Web), a network of digital documents that has being used as a platform to the practice of journalism on the Internet and that determined the three generations of digital journalism; and 2) the databases aggregate to the Web, that have become the main technology behind the structuring of journalistic products in the transition between the third and fourth generation of digital journalism. In 2001, the scientist Tim Berners-Lee, inventor of the web, published a paper with a proposal of an extension to this network, which was called the Semantic Web. The paper proposed a change in the concept of the current web: from the traditional network made of documents to a network made of data, plus the technical ability to represent real concepts, such as people, places and objects. A great advantage of this proposal is that computers would be able to understand the data and identify their meanings. With a semantic network, the information could be organized and managed more efficiently and in an automated way, and the connections between the data would be richer than the current hyperlinks between documents. The concept of the Semantic Web is still maturing, but it is currently possible to find digital products that implement this concept. This research aims to analyze two real cases that apply the concept of the Semantic Web in digital journalism, specifically in the organization and management of the newspaper reports. For the theoretical background of research, we conducted a literature review on digital journalism, paradigm of the Digital Journalism on Databases (JDBD) and how the standard technologies of the Semantic Web work, such as RDF and ontologies. This is an exploratory research and it uses the case study as a method. The cases are the site 'World Cup 2010 BBC' and the site 'BBC Wildlife'. The analysis was performed using eight categories applicable to the study of JDBD. Among the results, it is found that the Semantic Web improve some of the characteristics of JDBD, mainly due to the automation on management tasks. Moreover, it identified that automated interoperability was the more advantageous benefit of Semantic Web to both digital journalism cases, and that it can become a potential rupture if the Semantic Web project come to succeed.
Key-words: Semantic Web, on-line journalism, Digital Journalism on Databases, data journalism, BBC.
LISTA DE FIGURAS
Figura 1 Vdeo do YouTube com insero dinmica de comentrio sobreposto ao vdeo ... 29 Figura 2 Vdeo do YouTube com insero dinmica de links sobrepostos ao vdeo ............ 30 Figura 3 Pgina de vdeo do YouTube com insero dinmica de dados ............................. 31 Figura 4 Tela do site OurSignal, que rene publicaes de diversos sites e os apresenta em retngulos ................................................................................................................................. 40 Figura 5 Infografia em base de dados do Los Angeles Times sobre a ocorrncia dos homicdios (RODRIGUES, 2009, p. 44) ................................................................................ 45 Figura 6 Estrutura da tripla .................................................................................................... 61 Figura 7 Exemplo de tripla .................................................................................................... 61 Figura 8 Exemplo de um grafo que une duas triplas ............................................................. 61 Figura 9 Exemplo de grafo mais complexo. Adaptada de Segaran (et al, 2009, p. 30) ........ 62 Figura 10 Exemplo de tripla com sujeito, predicado e objeto identificados atravs do uso de URI ........................................................................................................................................... 64 Figura 11 Lista de colees de dados em RDF disponveis para download no site Data.gov .................................................................................................................................................. 66 Figura 12 Visualizao parcial de uma das colees de dados em RDF/XML disponveis para download no site Data.gov ............................................................................................... 67 Figura 13 Pgina inicial do site This We Know, em que so apresentadas listas com rankings entre cidades norte-americanas .................................................................................. 68 Figura 14 Pgina do site This We Know, que apresenta nmeros sobre uma cidade dos EUA, como o nmero de fbricas (A), de crimes violentos (B) e de empregados x desempregados (C) ................................................................................................................... 69 Figura 15 Tela do software Protg que mostra parte de uma ontologia em OWL (CANTAIS et al., 2005) ........................................................................................................... 75 Figura 16 Processo de extrao de conceitos no servio Calais ............................................ 79 Figura 17 Tela que mostra parte dos dados estruturados relativos ao termo So Paulo no site do projeto DBpedia ............................................................................................................ 82 Figura 18 Diagrama do Linked Data, atualizado em maio de 2007 ...................................... 83 Figura 19 Diagrama do Linked Data, atualizado em 19 de setembro de 2011...................... 84 Figura 20 Diagrama com fluxo de pesquisas na nuvem de dados para aplicativo fictcio (SEGARAN et al., 2009, p. 112) com marcaes que indicam a ordem das pesquisas (marcao nossa) ...................................................................................................................... 85
Figura 21 Pgina dos times (Seleo brasileira), dividida em duas partes ............................ 92 Figura 22 Pgina dos jogadores (jogador Robinho), dividida em duas partes ...................... 93 Figura 23 Pgina dos grupos (grupo G), dividida em duas partes......................................... 94 Figura 24 Pgina das partidas, com o relato (A) e as informaes (B) sobre o jogo ............ 95 Figura 25 Pgina da partida, com comentrios (A) e estatsticas (B) sobre o jogo ............... 96 Figura 26 Viso parcial da pgina de notcia, com marcaes em trs listas de links .......... 97 Figura 27 esquerda, uma viso parcial da pgina inicial do site World Cup 2010. direita, a mesma pgina, porm completa e com marcaes que indicam as reas relatadas .. 98 Figura 28 Pgina Groups and teams. Na parte superior: os oito grupos da Copa. Na parte inferior: o mapa de confrontos ps-fase de grupos................................................................... 99 Figura 29 Pgina Fixtures and results ................................................................................. 100 Figura 30 Menu superior do site World Cup 2010 .............................................................. 101 Figura 31 Menu inferior do site World Cup 2010 ............................................................... 101 Figura 32 Viso simplificada do processo de publicao semntica da BBC (OLIVER, 2010b, traduo nossa) ........................................................................................................... 105 Figura 33 Processo de publicao dinmica e semntica da BBC (ODONAVAN, 2010, traduo nossa, marcao nossa) ............................................................................................ 106 Figura 34 Dados sobre jogador convertidos para o formato de grficos em barra .............. 111 Figura 35 Pgina inicial do BBC Wildlife........................................................................... 113 Figura 36 Menu na pgina inicial do site Wildlife. Marcaes nossas ............................... 114 Figura 37 Viso parcial da pgina das espcies .................................................................. 116 Figura 38 Pgina das espcies, com marcaes indicativas ................................................ 117 Figura 39 Comparao entre as pginas de espcie (leo), classe (mamferos) e filo (vertebrados) ........................................................................................................................... 120 Figura 40 Pgina de comportamento/adaptao (esquerda) e da pgina de habitat (direita) ................................................................................................................................................ 122 Figura 41 Caixa de links para notcias relacionadas ao conceito de "leo" ........................ 123 Figura 42 Pgina de notcia no site BBC Earth News ......................................................... 125 Figura 43 Menu principal do site BBC Nature, com links para as sees do site ............... 126 Figura 44 Reproduo parcial de artigo em blog do site BBC Nature. Marcaes nossas . 128 Figura 45 esquerda, a pgina da espcie Tarntula. direita, a pgina serializada em RDF/XML .............................................................................................................................. 132 Figura 46 Triplas RDF que descrevem um vdeo do site BBC Programmes ...................... 133 Figura 47 Triplas RDF que descrevem um vdeo do site BBC Programmes ...................... 133
Figura 48 Grafo das triplas que descrevem um vdeo do site BBC Programmes ............... 134 Figura 49 Clipe de vdeo do BBC Programmes agregado pgina do Wildlife ................. 135 Figura 50 Camadas que fazem o fluxo de publicao dinmica e semntica do BBC Wildlife (OLIVER, 2010b, traduo nossa) ......................................................................................... 137
LISTA DE APNDICES
APNDICE A Roteiro para observao e anlise dos casos estudados .............................. 159 APNDICE B Lista de fonte para anlise do site BBC World Cup 2010 .......................... 160 APNDICE C Lista de fonte para anlise do site BBC Wildlife ........................................ 161
LISTA DE ANEXOS
ANEXO A Tela da pgina do Google News ....................................................................... 162 ANEXO B Tela inicial da seo Home do site BBC Nature............................................... 163 ANEXO C Tela inicial da seo News do site BBC Nature ............................................... 164 ANEXO D Tela inicial da seo Features do site BBC Nature........................................... 165 ANEXO E Tela inicial da seo Blog do site BBC Nature ................................................. 166 ANEXO F Tela inicial da seo Video Collections do site BBC Nature ............................ 167 ANEXO G Tela inicial da seo Wildlife do site BBC Nature ........................................... 168 ANEXO H Tela inicial da seo Prehistoric Life do site BBC Nature ............................... 169 ANEXO I Tela inicial da seo Places do site BBC Nature ............................................... 170 ANEXO J Resultado de busca no Google pelo termo "lion" .............................................. 171 ANEXO K Resultado de busca no Google pelos termos "world cup 2010" ....................... 172
SUMRIO INTRODUO ................................................................................................. 13 1 JORNALISMO DE DADOS ................................................................... 21
1.1 Fases e caractersticas do Jornalismo Digital............................................................ 21 1.2 Jornalismo Digital em Base de Dados (JDBD).......................................................... 24 1.2.1 Bases de dados ........................................................................................................... 25 1.2.2 Bases de dados como forma cultural ......................................................................... 27 1.2.3 Bases de dados no jornalismo .................................................................................... 33 1.2.4 JDBD: paradigma para a quarta gerao do jornalismo digital ................................. 36 1.3 Jornalismo de dados .................................................................................................... 41 1.3.1 Conceito de data journalism ...................................................................................... 41 1.3.2 Visualizao de dados ................................................................................................ 43 1.3.3 Aplicativos jornalsticos ............................................................................................ 46
WEB SEMNTICA................................................................................. 51
2.1 A web atual: uma rede de documentos ...................................................................... 51 2.2 Web Semntica: uma rede de dados .......................................................................... 54 2.2.1 Metadados .................................................................................................................. 58 2.2.2 Um modelo padronizado para os metadados: o padro RDF .................................... 59 2.2.3 Ontologias .................................................................................................................. 70 2.2.4 Uma linguagem para construo de ontologias: o padro OWL ............................... 73 2.2.5 As mquinas tomam a iniciativa: os agentes inteligentes .......................................... 76 2.2.6 Extrao de conceitos em contedos no estruturados .............................................. 77 2.2.6.1 Tcnica de tagging ................................................................................................. 77 2.2.6.2 Software de anlise automtica .............................................................................. 78 2.3 Linked Data .................................................................................................................. 80
A WEB SEMNTICA NO JORNALISMO DIGITAL ....................... 87
3.1 Seleo do corpus da pesquisa .................................................................................... 87 3.2 Caso BBC World Cup 2010 ........................................................................................ 89 3.2.1 Descrio do produto ................................................................................................. 90 3.2.2 Contexto e justificativa para uso das tecnologias semnticas.................................. 101 3.2.3 Identificao de recursos e tecnologias semnticas utilizadas ................................. 103 3.2.4 Descrio do funcionamento das tecnologias semnticas ....................................... 103 3.2.5 Contribuies das tecnologias semnticas ao atual paradigma do JDBD................ 107 3.2.5.1 Dinamicidade ....................................................................................................... 108 3.2.5.2 Automatizao...................................................................................................... 108 3.2.5.3 Flexibilidade ......................................................................................................... 109 3.2.5.4 Inter-relacionamento/Hiperlinkagem ................................................................... 109 3.2.5.5 Densidade informativa ......................................................................................... 110 3.2.5.6 Diversidade temtica ............................................................................................ 110 3.2.5.7 Visualizao ......................................................................................................... 110 3.2.5.8 Convergncia........................................................................................................ 111 3.3 Caso BBC Wildlife ..................................................................................................... 112 3.3.1 Descrio do produto ............................................................................................... 112 3.3.2 Contexto e justificativa para uso das tecnologias semnticas.................................. 129 3.3.3 Identificao de recursos e tecnologias semnticas utilizadas ................................. 130
3.3.4 Descrio do funcionamento das tecnologias semnticas ....................................... 130 3.3.5 Contribuies das tecnologias semnticas ao atual paradigma do JDBD................ 139 3.3.5.1 Dinamicidade ....................................................................................................... 139 3.3.5.2 Automatizao...................................................................................................... 139 3.3.5.3 Flexibilidade ......................................................................................................... 140 3.3.5.4 Inter-relacionamento/Hiperlinkagem ................................................................... 140 3.3.5.5 Densidade informativa ......................................................................................... 141 3.3.5.6 Diversidade temtica ............................................................................................ 141 3.3.5.7 Visualizao ......................................................................................................... 141 3.3.5.8 Convergncia........................................................................................................ 142 3.4 Avaliao geral sobre o uso das tecnologias semnticas no jornalismo digital.... 142
CONSIDERAES FINAIS ......................................................................... 145 REFERNCIAS BIBLIOGRFICAS .......................................................... 149
13
INTRODUO
A presente pesquisa se caracteriza como um estudo interdisciplinar que envolve conhecimentos dos campos do jornalismo e da cincia da computao. Em diversos momentos deste trabalho, as fronteiras entre os conhecimentos especficos de cada rea se entrelaam. Afinal, o jornalismo, tomado aqui como uma atividade que trabalha essencialmente com dados e informaes, no teria como escapar dos efeitos transformadores das tecnologias digitais. No queremos defender o pensamento reducionista (e tentador) de que novas tecnologias tendem a melhorar a prtica jornalstica, pois, como afirma o pesquisador Marcos Palacios (2003, p. 16), corremos o perigo de instaurar um pensamento guiado por uma lgica evolucionista de carter simplista. Por outro lado, ao considerarmos que a
contemporaneidade marcada, entre outros fenmenos, pelo surgimento de um ciberespao que redefine prticas sociais e profissionais (LEMOS; LVY, 2010), sabemos que as mudanas tecnolgicas tm potencial para transformaes nos modos de produzir e consumir a informao jornalstica. Se o jornalismo digital uma atividade baseada em plataformas tecnolgicas que passam por constantes mutaes, ento a produo jornalstica praticada neste ambiente tambm passa por redefinies (PAVLIK, 2000). No decorrer das dcadas de 1990 e 2000, o rpido desenvolvimento e popularizao dos computadores e das redes fizeram emergir diferentes plataformas digitais para a distribuio da informao, tais como o disco tico, o correio eletrnico, a web e os software aplicativos em dispositivos mveis. Destes, podemos afirmar que a World Wide Web (WWW ou simplesmente web) foi uma das tecnologias que mais influenciaram os estudos brasileiros sobre o jornalismo digital das duas ltimas dcadas, devido a uma diversidade de fatores, tais como o seu alcance global, a sua facilidade na produo e distribuio de contedos e a sua lgica de interconexo de documentos (LEO, 1999). Foi principalmente a partir das potencialidades tcnicas da web que surgiram estudos sobre as caractersticas que diferenciam o jornalismo digital das outras modalidades de jornalismo (PALACIOS, 2003), que delimitou os estudos sobre o desenvolvimento do jornalismo digital em diferentes geraes (MIELNICZUK, 2003), e que abriu espao para os estudos sobre a produo jornalstica em sistemas automatizados (SCHWINGEL, 2004) e sobre o jornalismo digital estruturado em bases de dados (MACHADO, 2006; BARBOSA, 2007, 2008a). Por isso, consideramos que uma mudana na forma como a web funciona apresenta potencial para
14 influenciar nos modos de produo, circulao e consumo da informao (jornalstica ou no) no ciberespao. E, de fato, uma proposta de mudana na web est em curso. No ano de 2011, a web completou 20 anos desde seu lanamento pblico e, no decorrer deste perodo, apresentou atualizaes em especificaes tcnicas importantes (como as atualizaes do HTML publicadas pela W3C1), alm de ter sido enriquecida com o surgimento de tecnologias paralelas, como plug-ins para multimdia e linguagens de script. Porm, na essncia, a organizao da web continuou funcionando com base no mesmo conceito de sua origem: como uma rede de documentos conectados. No incio da dcada de 2000, o cientista britnico Tim Berners-Lee, idealizador da prpria World Wide Web, apresentou um artigo em que propunha um conceito mais avanado para esta rede. A esta proposta, ele denominou Web Semntica: uma rede que funcionaria no apenas como um sistema de associaes de documentos criados prioritariamente para a leitura humana, mas como uma rede de dados, em que os computadores tambm seriam capazes de identificar os significados dos contedos publicados nas pginas (BERNERS-LEE et al., 2002). Em outras palavras, na Web Semntica as informaes publicadas na rede so preparadas para serem compreendidas tanto por humanos quanto por mquinas, o que resultaria em uma web mais eficiente e autnoma na busca e na associao de informaes. Para Berners-Lee et al. (2002), passaramos do paradigma de web de documentos para a de web de dados, estruturados e adaptados para a interpretao das mquinas. As vantagens de um sistema semntico global alcanariam diversas reas que trabalham com a organizao e o compartilhamento de dados, alm da automao em operaes que envolvem o gerenciamento dos mesmos, tais como na cincia da computao (BERNERS-LEE et al, 2002; SHADBOLT et al, 2006; KASHYAP et al, 2008; SEGARAN et al, 2009), na cincia da informao (CODINA, 2011; SOUZA E ALVARENGA, 2004) e tambm no jornalismo (BERTOCCHI, 2010), devido natureza informativa dessa prtica profissional. Tal cenrio abre caminho para o desenvolvimento de produtos jornalsticos mais complexos e integrados aos contedos publicados na rede, pois na Web Semntica a estruturao dos dados universalmente padronizada, o que permite o seu compartilhamento. Quando tratamos de vantagens desta tecnologia, no as consideramos exatamente como novidades, mas como o melhoramento, em algum aspecto, das funes at ento
A W3C um grupo de especialistas e de empresas que desenvolvem as principais tecnologias e padres da Web. Segundo o site da W3C: The World Wide Web Consortium (W3C) is an international community that develops standards to ensure the long-term growth of the Web. Em traduo livre: A World Wide Web Consortium (W3C) uma comunidade internacional que desenvolve padres que asseguram o crescimento da Web em longo prazo. Disponvel em: <http://www.w3.org>. Acesso em: 23 jun 2010.
1
15 desempenhadas por outras tecnologias, como, por exemplo, no encurtamento do tempo, na maximizao da eficcia ou na automatizao de operaes de publicao, distribuio, recuperao e gerenciamento de dados. Para evitarmos o determinismo presente na ideia de um processo evolucionrio linear de superao de suportes anteriores por suportes novos (PALACIOS, 2003, p. 22), tratamos estes vantagens como continuidades e potencializaes de caractersticas j exploradas pelo jornalismo digital. Por isso, antes de se analisar as potencialidades trazidas pela Web Semntica, necessrio que tenhamos claro quais as caractersticas j exploradas pelos produtos jornalsticos digitais na atualidade. A prtica do jornalismo digital est inserida em um cenrio bastante diversificado em termos tecnolgicos: alm dos computadores e da web, temos a proliferao dos dispositivos mveis conectados em rede, como os smartphones e os tablets. Com o crescimento vertiginoso na produo e no consumo de dados, uma tecnologia especfica se destaca: a base de dados (BD). Mais do que uma mera ferramenta de armazenamento, a BD passa a ser a tecnologia fundamental na organizao, estruturao e apresentao das informaes, e, por isso, define as funcionalidades e a esttica dos produtos informacionais, e passa a ser considerada um formato cultural de nossa poca (MACHADO, 2006; MANOVICH, 2001). Atualmente, os produtos jornalsticos tomam as bases de dados como o recurso estruturante em suas diferentes fases produtivas: apurao, composio e circulao (MACHADO, 2006). Por isso, a atual gerao do jornalismo digital pode ser caracterizada como a de um Jornalismo Digital em Base de Dados (JDBD) (BARBOSA, 2007). Logicamente, no basta que uma prtica profissional adote uma tecnologia para que seja decretado o incio de uma nova gerao. Barbosa (2007) lista uma srie de indcios que demonstrariam transformaes nas prticas jornalsticas e que comprovariam um movimento de transio de paradigma no jornalismo digital, tais como: o desenvolvimento de sistemas de gesto de contedos mais complexos, ampla adoo de recursos da Web 2.0, uso crescente de aplicaes mash-ups, entre outros. Destes indcios, destacamos trs que serviram de mote para a presente pesquisa: [o surgimento de] novos elementos conceituais para a organizao da informao; maior integrao do material de arquivo na oferta informativa; produtos experimentais que incorporam o conceito de web semntica (BARBOSA, 2007, p. 9). Os trs indcios citados por Barbosa surgem como iniciativas necessrias em um cenrio de saturao na massiva oferta de informao, gerada pelas facilidades oferecidas pelas tecnologias digitais na reproduo de contedos. Se por um lado temos uma grande quantidade de informaes disponibilizadas, por outro temos como consequncia problemas relacionados busca, localizao, acesso e recuperao dessas informaes. A Web
16 Semntica se prope a ser uma soluo para essa situao, pois, com a capacidade das mquinas em compreender o significado das informaes, temos como consequncia um processo de busca e recuperao de dados mais eficiente. Se, segundo autores e entusiastas da Web Semntica, esta tecnologia oferece vantagens s cincias da informao ao aproveitar o potencial dos computadores para organizar e gerenciar as informaes (ou o conhecimento) de uma forma mais eficiente (BERNERS-LEE et al., 2002; SHADBOLT et al., 2006;), ento questionamos neste trabalho: quais seriam as potencialidades que a Web Semntica ofereceria para a organizao e o gerenciamento dos contedos jornalsticos? A Web Semntica um projeto ainda em desenvolvimento. Segundo Kashyap et al. (2008), na engenharia da computao, existe uma ideia conhecida como regra 5-5-5, de que uma nova tecnologia demora aproximadamente 15 anos entre o perodo de sua concepo at sua disseminao no mercado de massa. Os primeiros cinco anos so reservados para a pesquisa, os prximos cinco anos para refinamento dos produtos baseados nestas pesquisas, e por fim, os ltimos cinco anos so para a saturao do conceito no mercado. Ao considerarmos que a Web Semntica tem como incio deste perodo o ano de 2001, quando Berners-Lee, Hendler e Lassila publicaram o artigo em que apresentam sua proposta, podemos considerar que o momento atual (2011) de transio entre a experimentao do conceito e o incio da aplicao efetiva do mesmo. Buscamos nesta investigao estudar as contribuies da Web Semntica na organizao do contedo jornalstico a partir da anlise de casos que aplicaram com sucesso este conceito no jornalismo digital. Por tratarmos de produtos digitais pioneiros, devido incipiente fase da Web Semntica, definimos que o processo metodolgico deve adotar a estratgia de estudo de caso, a fim de apresentar e analisar os resultados de tais produtos dentro do contexto do jornalismo. Ao refletirmos sobre a dimenso do conceito de Web Semntica, percebemos que os produtos podem vir a explorar determinados benefcios e deixar de explorar outros. Por isso, consideramos que a melhor metodologia para este trabalho aquela que analisa mais de um caso, para abrangermos uma quantidade maior de funes das tecnologias semnticas na nossa observao. Adotamos, ento, como objetivo principal, identificar contribuies do uso das tecnologias semnticas na organizao e gerenciamento dos produtos jornalsticos digitais. Para que isso seja possvel, precisamos alcanar resultados nos seguintes objetivos especficos: 1) identificar quais so as tecnologias semnticas utilizadas nos produtos jornalsticos selecionados, 2) compreender como elas so aplicadas, 3) identificar quais as razes do uso destas tecnologias, e, por fim, 4) relacionar os dados obtidos na investigao dos casos selecionados ao atual paradigma do Jornalismo Digital em Base de
17 Dados, a fim de se compreender as possveis contribuies da proposta da Web Semntica prtica do jornalismo digital. Para isso, os resultados da pesquisa foram analisados luz das categorias levantadas por Barbosa (2007, 2008a) em estudos sobre o JDBD, a fim de se descobrir se h indcios de potencializaes destas caractersticas. Os objetivos citados caracterizam a atual pesquisa como exploratria devido ao trabalho de identificao das tecnologias empregadas, do seu modus operandi no produto em anlise e, tambm, devido busca de esclarecimentos sobre como um determinado fenmeno funciona em um contexto, no caso a Web Semntica no jornalismo. Segundo Gil, as pesquisas exploratrias so desenvolvidas com o objetivo de proporcionar viso geral, de tipo aproximativo, acerca de determinado fato. Este tipo de pesquisa realizado especialmente quando o tema escolhido pouco explorado [...] (1989, p. 45). Para o autor, geralmente este tipo de pesquisa realizado atravs de levantamento bibliogrfico, entrevistas no padronizadas e estudos de caso. Para delimitarmos o universo da anlise, determinamos que os casos selecionados deveriam ser produtos desenvolvidos por iniciativas oriundas do mainstream jornalstico, ou seja, de organizaes consolidadas no mercado. Aps pesquisas bibliogrficas e documentais e observaes diretas de produtos da web, a organizao escolhida2 foi a British Broadcasting Corporation (BBC), emissora pblica de rdio e televiso do Reino Unido. A emissora possui uma equipe de profissionais especializados em arquitetura da informao e desenvolvimento web, e j demonstrou o uso de tecnologias semnticas em mais de um produto. Para realizarmos a nossa investigao, selecionamos dois produtos da BBC, cada um deles como um caso a ser estudado: o site BBC World Cup 2010 (um site que abriga todo o contedo jornalstico da BBC relacionado Copa do Mundo de 2010) e o site BBC Wildlife (um site que rene uma grande produo de contedo multimdia sobre a vida natural). Para cada caso analisado, tanto a coleta quanto a anlise dos dados foram realizadas com o apoio de um protocolo (APNDICE A) que divide o processo em duas etapas: uma para a descrio do produto estudado e outra para a anlise do emprego das tecnologias semnticas. Na primeira etapa, foi realizada uma observao direta semiestruturada dos produtos digitais selecionados, para que fossem registradas a identificao do produto e a descrio de suas funcionalidades. Na segunda etapa, alimentada pela coleta de dados secundrios, buscamos:
O processo de seleo do corpus detalhado no 3 captulo.
18 1) identificar o contexto que justificasse o uso das tecnologias semnticas, 2) identificar as principais tecnologias semnticas empregadas pelo produto estudado, 3) descrever o funcionamento das tecnologias semnticas identificadas, 4) analisar qualitativamente as vantagens encontradas pelas respectivas organizaes ao utilizarem tecnologias semnticas, sob a luz das caractersticas do JDBD apresentadas por Barbosa: dinamicidade, automatizao, flexibilidade, interrelacionamento/hiperlinkagem, densidade informativa, diversidade temtica, visualizao (BARBOSA, 2007) e convergncia (idem, 2008). A anlise foi realizada pela confrontao de dados obtidos em diferentes fontes, como artigos, documentos, entrevistas, debates e apresentaes disponibilizados pelos tcnicos desenvolvedores dos produtos estudados. O desenvolvimento do presente texto est organizado em trs captulos. No primeiro, intitulado Jornalismo de Dados, realizada uma retomada dos estudos sobre jornalismo digital nos ltimos anos no Brasil: apresentamos alguns aspectos importantes sobre o jornalismo digital, como as suas caractersticas e as suas trs geraes iniciais. Seguimos para o referencial terico sobre a tecnologia das bases de dados (BDs), as BDs como formato cultural e como esttica de nosso tempo (database aesthetic), at chegarmos ao uso das bases de dados no jornalismo. Tratamos, ento, do paradigma do Jornalismo Digital em Base de Dados (JDBD), importante conceito para a nossa anlise. neste trecho que apresentamos as categorias para estudo sobre JDBD propostas por Barbosa (2007, 2008a) e que aplicamos em parte da anlise dos dados. Para finalizar o captulo, apresentamos brevemente alguns dos termos e conceitos empregados em outras partes do mundo para a prtica do jornalismo em uma era marcada pelas quantidades massivas de dados que circulam globalmente, alm de prticas emergentes no jornalismo que surgem em decorrncia deste cenrio, como as infografias interativas e os aplicativos jornalsticos. Por termos tratado tambm destes conceitos, julgamos mais apropriado generalizar o ttulo do captulo como Jornalismo de Dados (livre traduo do termo amplamente utilizado data journalism), pois acreditamos que o termo englobe tambm as prticas do JDBD. No segundo captulo, passamos para o referencial terico relacionado ao campo da Computao. Aqui, tratamos de apresentar e explicar o conceito de Web Semntica, de acordo com a proposta de Berners-Lee et al (2002). O referencial aborda as principais tecnologias semnticas recomendadas pela W3C (triplos em RDF e ontologias em OWL), alm de tpicos
19 derivados desta combinao de tecnologias, como a linguagem de query3 SPARQL, os repositrios de triplos, a tcnica de tagging, entre outros. Por fim, apresentamos o projeto Linked Data, que uma srie de prticas padronizadas para se publicar dados abertos na web, apropriados para o compartilhamento entre diferentes sites na lgica da Web Semntica. Cabe ressaltar que a Web Semntica um conceito de uma rede semntica de dados, e que a W3C no a nica que prope solues tecnolgicas para a realizao desta proposta (AKERKAR, 2009). Nossas escolhas sobre as solues abordadas foram determinadas pelas tecnologias semnticas empregadas pelos casos estudados. importante esclarecer que buscamos explicar o que , como funciona e para que serve a Web Semntica de uma forma didtica. Acreditamos que o conceito da Web Semntica ainda no ocupa um lugar destacado nos debates acadmicos sobre o jornalismo digital; ao menos no no Brasil. No decorrer dos nossos estudos, encontramos um nmero reduzido de bibliografias da rea que tratam de explicar esta proposta sob o ngulo de um jornalista. Acreditamos que o tema Web Semntica dever ser mais explorado pela comunidade acadmica do campo da comunicao em trabalhos futuros, e, por isso, esperamos que o captulo sobre a Web Semntica possa vir a auxiliar no entendimento desta tecnologia queles que no esto habituados com os estudos da rea tecnolgica. No ltimo captulo, apresentamos a anlise dos dois casos selecionados. Cada um dos casos foi identificado e teve seu funcionamento descrito. Tambm trazemos para cada caso uma apresentao dos autores que nos baseamos para coletar os dados. Por fim, relatamos para cada caso as tecnologias semnticas empregadas, o funcionamento das mesmas e a anlise comparativa com as caractersticas do JDBD. O resultado da anlise demonstra que a Web Semntica potencializa algumas caractersticas do JDBD, principalmente devido combinao das mesmas com a capacidade apurada de automao, e aponta para uma provvel ruptura em relao s atuais caractersticas do jornalismo digital, que s ser vivel caso se consolide de fato uma rede de dados semntica na web.
O termo query significa um comando de pesquisa por determinados dados em um banco de dados.
20
21
1 JORNALISMO DE DADOS
Com o surgimento da web, seguido de sua popularizao, as prticas profissionais baseadas na produo e distribuio de contedo informativo e miditico sofreram transformaes, algumas bastante evidentes. No jornalismo, a web tambm teve um impacto significativo nas rotinas de produo e no consumo. As potencialidades do suporte digital em rede criaram possibilidades na construo de narrativas e na apresentao das mesmas, pois, alm de herdar a multimidialidade dos diferentes suportes tradicionais, a interface da web interativa e hipertextual (CANAVILHAS, 2001). Como consequncia, a prtica jornalstica na web, denominada neste texto como jornalismo digital4, desenvolveu certas caractersticas que a destacam de outras modalidades de jornalismo, como o impresso, o radiojornalismo e o telejornalismo.
1.1 Fases e caractersticas do Jornalismo Digital Entre a metade da dcada de 1990 e o incio da dcada de 2000, alguns estudiosos apresentaram propostas de caracterizaes da prtica jornalstica em suportes digitais em rede. Palacios (2003) realizou uma compilao dessas caractersticas do jornalismo digital e tambm sugeriu outras, resultando assim em um total de seis: Multimidialidade/convergncia: a convergncia das mdias tradicionais (imagem, som, texto) na narrativa. Isso possvel devido ao formato digital dos dados, que permite integr-los no suporte. Tambm possvel acrescentar narrativa outros recursos multimdia, como as animaes 2D ou 3D. Interatividade: a relao estabelecida entre o usurio e o site e/ou o jornalista. Nesta relao, o leitor sente-se parte integrante do processo jornalstico, pois pode influenciar a narrativa com suas aes. Esta interatividade tambm pode ocorrer entre os usurios do site, com recursos como chats e fruns de discusses; ou entre o usurio e os produtores do contedo, como os jornalistas, via e-mail. Mielniczuk
4
Na literatura, h diferentes propostas de nomeao da prtica do jornalismo na internet. Mielniczuk (2003) cita algumas das propostas apontadas por autores, como jornalismo eletrnico, jornalismo digital, jornalismo multimdia, ciberjornalismo, jornalismo online e webjornalismo. Cada termo implica em relaes da prtica jornalstica com outros suportes que no apenas a web, por isso, na poca, a autora acompanhou Canavilhas (2001) ao apontar o termo webjornalismo como o mais apropriado, pois segue a mesma lgica de nomeao de outras modalidades do jornalismo, como o radiojornalismo e o telejornalismo, em que o nome do suporte colocado antes do termo jornalismo. Entretanto, neste trabalho tratamos a prtica com o termo mais abrangente jornalismo digital devido recente emerso de novas tecnologias digitais que no dependem da web, como no caso dos aplicativos para smartphones.
22 (2001) aponta ainda a interatividade entre usurio e mquina; e entre usurio e a prpria publicao, atravs do hipertexto. O pesquisador Alex Primo sugere a substituio do termo usurio pelo termo interagente, pois tal termo emana a idia de interao, ou seja, a ao (ou relao) que acontece entre os participantes. Interagente, pois, aquele que age com outro (PRIMO, 2003, p. 7). Hipertextualidade: a possibilita de interconexo entre textos a partir de links. Leo (2001) define que os blocos de informaes interconectados pelos links podem ser denominados de lexias, que podem ser texto, imagem, som, vdeo etc; ou uma composio com vrios destes elementos. Customizao do contedo/personalizao: a possibilidade de o interagente configurar o site jornalstico de acordo com seus interesses. Estas configuraes podem ser visuais (cores, tamanho dos caracteres etc.), editoriais (pr-seleo dos assuntos, hierarquizao de editorias etc.) entre outras. Instantaneidade/atualizao contnua: a extrema agilidade na atualizao do contedo disponibilizado para o usurio. Ao contrrio da periodicidade do jornalismo impresso, no jornalismo digital as notcias so publicadas instantaneamente e em fluxo contnuo. A televiso e o rdio tambm so instantneos, porm a disponibilidade da informao limitada no tempo, ou seja, o telespectador/ouvinte precisam estar a consumir a informao no exato momento em que ela veiculada, ao contrrio do jornalismo digital, em que o fluxo contnuo armazenado para acesso a qualquer momento. Memria: a capacidade de armazenar os produtos jornalsticos j produzidos anteriormente. Segundo Palacios (2002), o armazenamento de informaes mais vivel tcnica e economicamente na web do que em outras mdias. Esta memria pode ser disponibilizada tanto aos produtores quanto aos interagentes do contedo. Para o autor, essas no so caractersticas novas, pois, de certa forma, tambm podem estar presentes em suportes anteriores. Segundo Palacios, [...] as caractersticas do Jornalismo na web aparecem, majoritariamente, como Continuidades e Potencializaes e no, necessariamente, como Rupturas com relao ao jornalismo praticado em suportes anteriores (2003, p. 22). Contudo, para o autor, possvel apontar algumas rupturas e a principal delas a memria, pois, pela primeira vez na histria, o jornalismo pode se aproveitar de um espao praticamente ilimitado, disponvel tanto ao produtor quanto ao
23 consumidor da informao; e, ainda, tal quantidade potencialmente ilimitada de informaes combinada s outras caractersticas do jornalismo digital, como a interatividade e a instantaneidade. Logo, a especificidade do jornalismo na web se encontra no apenas pela Potencializao das caractersticas j descritas, mas principalmente pela combinao dessas caractersticas potencializadas, gerando novos efeitos (PALACIOS, 2003, p. 24). As caractersticas que diferenciam o jornalismo digital no apareceram de uma hora para a outra. As potencialidades foram descobertas e postas em prtica de forma gradual, de acordo com a evoluo da web. Enquanto tais caractersticas ainda no eram exploradas, os profissionais jornalistas tendiam a repetir na web os formatos e linguagens dos suportes tradicionais a que eram costumados a produzir. Segundo Canavilhas,
Marshall McLuhan afirmava que o contedo de qualquer medium sempre o antigo medium que foi substitudo. A internet no foi excepo. Devido a questes tcnicas, (baixa velocidade na rede e interfaces textuais), a internet comeou por distribuir os contedos do meio substitudo - o jornal. S mais tarde a rdio e a televiso aderiram ao novo meio, mas tambm nestes casos se limitaram a transpor para a internet os contedos j disponibilizados no seu suporte natural (2001, online).
Os sites jornalsticos no passaram a explorar as caractersticas do jornalismo digital de forma uniforme. A iniciativa de se explorar as caractersticas ocorreu de forma gradual e dispersa. Mesmo assim, possvel definir alguns perodos na recente histria desta prtica, para fins de estudo sobre o desenvolvimento do jornalismo nos ambientes digitais em rede. Mielniczuk (2003) prope uma classificao dividida em trs momentos: o webjornalismo5 de primeira gerao (ou fase da transposio), o webjornalismo de segunda gerao (ou fase da metfora) e o webjornalismo de terceira gerao. Na primeira gerao, os contedos das pginas jornalsticas so apenas reprodues de partes de grandes jornais impressos; ou seja, o jornalismo digital era uma transposio de algumas das matrias do jornal impresso para um formato digital, sem adaptao de linguagem e de formato. A atualizao era feita a cada 24 horas, pois dependia do fechamento da edio do jornal impresso para que fosse realizada a substituio das matrias nos sites. Na segunda gerao, que comeou aproximadamente no final dos anos 1990, comea a existir a preocupao em explorar alguns dos recursos da web, como a atualizao de notcias durante o decorrer do dia, geralmente em sees chamadas ltimas notcias; tambm h maior explorao do hipertexto e do e-mail (entre o leitor e o jornal/jornalista). Mesmo assim,
No texto em questo, a autora decidiu por adotar o termo webjornalismo, que tratamos aqui como sinnimo de jornalismo digital.
5
24 o modelo do suporte impresso continua como uma referncia para o formato dos produtos jornalsticos na web. No webjornalismo de terceira gerao, toma fora o pensamento de que essa uma prtica diferente do jornalismo impresso, com um potencial de linguagem e formato prprios. Os sites jornalsticos passam a utilizar recursos mais especficos da web como os de multimdia (som, imagem), chats, enquetes, fruns de discusses, opes de configurao do site de acordo com os interesses do usurio, e o emprego do hipertexto no s na organizao da informao, como tambm dentro da narrativa jornalstica. A autora cita como exemplo desta gerao o site jornalstico MSNBC (www.msnbc.com), que no surgiu de um jornal impresso tradicional, mas da fuso entre uma empresa de software (Microsoft) e outra de telejornalismo (NBC). Embora a classificao de Mielniczuk identifique repeties de tendncias em sites jornalsticos no decorrer dos ltimos anos, no significa que todos os produtos jornalsticos da atualidade faam parte da terceira gerao; ainda existem sites que se enquadrariam dentro da primeira, da segunda ou at em mais de uma gerao. necessrio ressaltar que a proposta de classificao das fases do webjornalismo de Mielniczuk, publicada em 2003, surgiu em um contexto de plena evoluo tecnolgica dos computadores, das redes e dos software aplicativos. Desde ento, as potencialidades da web foram incrementadas com o surgimento, popularizao ou intensificao no uso de outras tecnologias que se integraram rede, alm da maturao daquelas j exploradas. Como exemplo, podemos citar as bases de dados (BDs) que, embora j fossem utilizadas na web em meados da dcada de 1990, comearam a ser exploradas de forma mais complexa e diversificada nos anos 2000, como no caso dos blogs. Naturalmente, as empresas jornalsticas passaram a experimentar a aplicao desses recursos em seus produtos. Segundo Ribas, a utilizao dos Bancos de Dados aparece em um momento de avanos do terceiro estgio do webjornalismo (2004, p. 9). Dentro deste contexto, autores como Schwingel (2005), Barbosa (2007) e Larrondo, Mielniczuk e Barbosa (2008) propem o surgimento de uma quarta gerao do jornalismo digital, caracterizada pelo uso sistemtico das BDs.
1.2 Jornalismo Digital em Base de Dados (JDBD) Desde o incio da dcada de 1990, quando a web surgiu, a conexo de novos servidores na internet passou a crescer em um ritmo exponencial, e a publicao de novas pginas acompanhou esse ritmo, j que os servidores tambm so utilizados para a
25 hospedagem de sites6. O crescimento da publicao de contedos em pginas HTML estticas passou a ser um problema quando empresas e usurios comearam a utilizar a rede para atividades que exigiam operaes de gerenciamento de dados. Tal situao resultou no desenvolvimento de solues mais flexveis para o gerenciamento de dados na internet, atravs das bases de dados. 1.2.1 Bases de dados Uma base de dados (BDs), ou banco de dados, um mecanismo capaz de manipular, armazenar e organizar informaes de modo que possam ser recuperadas rapidamente e a qualquer momento (OLIVIERO, 2002, p. 26). Logo, as BDs no so apenas estruturas para armazenamento de dados, elas tambm servem para gerenci-los de forma mais eficiente. Segundo Barbosa (2007), alguns autores da literatura especializada diferenciam os termos banco de dados de base de dados: banco geralmente utilizado para se referir ao contedo, enquanto que base utilizada para se referir estrutura lgico-matemtica. Entretanto, por no termos como foco o debate sobre padres tcnicos da tecnologia e por considerarmos a terminologia nas pesquisas em pases que se destacam nessa rea de estudo, como EUA (database), Espanha e Portugal, decidimos adotar o termo base de dados para nos referirmos a ambos os conceitos e assim acompanhamos, neste trabalho, a mesma escolha terminolgica de Barbosa. De acordo com Takai (et al, 2005), as possveis aes de gerenciamento dos contedos armazenados nas BDs so definidas e executadas pelo Sistema Gerenciador de Banco de Dados (SGBD). Os SGBDs surgiram na dcada de 1960 e, desde ento, evoluram em diversos tipos ou modelos, cada qual mais apropriado para determinados contextos. Entre esses modelos, os mais utilizados so: o modelo hierrquico7, o modelo em redes8, o modelo relacional9 e o modelo orientado a objetos10.
possvel observar o aumento do nmero de servidores em cada ano em uma pgina da Internet Systems Consortium, que apresenta estas estatsticas em uma tabela atualizada periodicamente. Disponvel em: <www.isc.org/solutions/survey/history>. Acesso em: 12 dez. 2010. 7 Surgiu nos primeiros SGBDs; so estruturados em hierarquias ou rvores, e os registros so associados uns aos outros em sequncias hierrquicas, como se fossem galhos (TAKAI, et al, 2005). 8 Surgiu como uma extenso ao modelo hierrquico, quebra a ordem hierrquica ao permitir associao dos registros a vrios outros que estejam fora de suas sequncias, ou seja, de outros galhos (TAKAI, et al, 2005). 9 Amplamente utilizado nos dias atuais, so modelos baseados em tabelas, em que cada tabela possui dados estruturados em colunas e linhas, que podem ser relacionados a outras tabelas da base de dado. 10 Surgiu para sanar algumas limitaes do modelo relacional em determinados casos especficos e mais complexos (TAKAI, et al, 2005).
26 Ainda segundo Takai (et al, 2005), os sistemas de bases de dados podem ser estruturados em diferentes arquiteturas. Uma arquitetura muito utilizada a do clienteservidor, apropriada para redes de computadores. Nesta arquitetura, os servidores (computadores principais) armazenam os dados, que so ento solicitados pelas mquinas clientes (como PCs e impressoras), conectados aos servidores em um ambiente em rede. Desta mesma forma funcionam os sistemas gerenciadores de bancos de dados. Segundo Oliviero:
- As informaes pertencentes ao banco de dados ficam concentradas em um ou mais servidores que tm por objetivo servir as demandas de consultas, alteraes, incluses, etc. requisitadas pelos seus clientes. - Todo processo realizado no servidor (ou servidores) pelo gerenciamento de banco de dados. Os clientes (usurios finais) apenas recebem em suas estaes as informaes j processadas e organizadas, diminuindo drasticamente o trfego na rede e conseqentemente aumentando o desempenho do sistema com respostas mais rpidas e eficientes (OLIVIEIRO, 2002, p. 28-29).
A web utiliza a lgica cliente-servidor, pois as pginas em HTML so armazenadas em servidores conectados internet, enquanto os computadores (clientes) fazem a requisio destes arquivos, que so enviados, armazenados localmente e ento interpretados pelos navegadores. Ento, quando um site utiliza um sistema de armazenamento de contedo em bases de dados, significa que um SGBD gerencia os dados em um servidor que, por sua vez, alimenta a pgina HTML enviada para os clientes da web (os software navegadores instalados nos computadores pessoais) (REESE, 2000). Alm da arquitetura cliente-servidor, a web tambm utiliza a BD relacional. Este modelo baseado em organizao por tabelas, em que cada tabela possui dados estruturados em colunas e linhas, que podem ser relacionados a outras tabelas da base de dado. Ento, quando um computador faz uma requisio de dados armazenados em uma base de dados, o SGBD instalado no servidor executa as aes necessrias nas tabelas que formam a base de dados alocada neste servidor em questo. Entre as aes possveis, podemos citar: a incluso de novos dados, a alterao ou excluso de dados armazenados e a recuperao (busca) de determinados dados. A web comeou como sistema de documentos digitais estticos, ou seja, sem o uso de bases de dados para o armazenamento dos contedos. Com o tempo, as BDs se consolidaram como uma forma mais eficiente de armazenamento de dados na web, e uma das razes para essa consolidao foi a disseminao das ferramentas de publicao e dos sistemas gerenciadores de contedos (Content Managment System ou CMS), que so sistemas
27 direcionados administrao e gerenciamento do contedo, voltado para publicao, para os processos de seleo, aprovao e edio dos mesmos (SCHWINGEL, 2009, p. 2). As pginas que publicam informaes diretamente no cdigo HTML so chamadas estticas, enquanto as que publicam a partir de bases de dados so chamadas de dinmicas, pois tm seus contedos modificados mais facilmente e muitas vezes de forma automatizada. Nesta mesma linha de pensamento, Kashyap divide o contedo da web em dois grupos: o primeiro, chamado de web superficial, um grupo de pginas estticas publicamente disponveis na rede. O outro grupo, denominado web profunda, consiste em bases de dados acessveis web e tambm de pginas dinmicas, que no so largamente conhecidas pelo usurio comum, mesmo que a informao disponvel na web profunda seja 400 a 550 vezes maior que a informao na superfcie 11 (2008, p. 23, traduo nossa12). Com base na sistematizao das geraes do jornalismo digital (MIELNICZUK, 2004), podemos associar a web superficial aos produtos encontrados nas primeiras geraes e a web profunda aos produtos da terceira gerao e tambm aos produtos da quarta gerao do jornalismo digital, que seria a fase caracterizada pelo uso sistemtico das bases de dados (BARBOSA, 2007). 1.2.2 Bases de dados como forma cultural As funcionalidades das BDs em modelos relacionais e estruturadas na arquitetura cliente-servidor tm um poder potencial de criao bastante significativo nos meios digitais, justamente devido s possibilidades de associaes e combinaes de dados digitais, mesmo nos casos em que os dados se encontram em formatos diferentes, pois apresentam natureza bastante flexvel nas combinaes. Para se compreender essa natureza dos dados, Manovich (2001) lista em seu o texto The Language of New Media cinco princpios das novas mdias que se aplicam aos contedos digitais: representao numrica: qualquer mdia digital, independente de ser originalmente criada no computador ou convertida de um suporte analgico, composta por cdigos digitais que so representados numericamente; logo, todas as mdias digitais podem ser manipuladas matematicamente; modularidade: todas as mdias digitais so formadas pelas mesmas estruturas modulares, independente da escala em que se encontram: a foto formada por
11
[] wich are not widely known by average surfers, even though the information available on the deep Web is 400 to 550 times larger than the information on the surface. 12 As tradues realizadas neste trabalho foram realizadas pelo autor do presente trabalho. Para cada trecho traduzido, apresentamos tambm a citao na lngua original, em nota de rodap.
28 pixels, o vetor formado por curvas e linhas etc. Tais mdias podem ser combinadas, mas podem manter suas estruturas modulares independentes umas das outras, como no caso de uma animao em Flash, que combina udio, imagens, textos e vdeos. Mesmo que exista combinao, cada mdia mantm sua estrutura mnima. Nas pginas HTML, ocorre o mesmo; automao: os princpios da representao numrica e da modularidade permitem que certas operaes sejam automatizadas na criao, na manipulao e no acesso das mdias, removendo em parte a participao humana no processo de criao; variabilidade: como consequncia dos princpios da representao numrica e da modularidade, as novas mdias podem existir em diferentes (potencialmente infinitas) verses. Ao invs de variabilidade, seria possvel utilizar tambm os termos mutvel ou lquido; transcodificao: considerada por Manovich a consequncia mais substancial da computadorizao da mdia, o princpio diz que as novas mdias, quando digitalizadas, passam a ser codificadas tanto em um formato com organizao estrutural compreensvel por humanos (como o significado simblico de uma imagem a partir das linhas, curvas etc), quanto em uma organizao estrutural compreensvel pelas mquinas a partir de convenes estabelecidas (como a cor RGB dos pixels, a dimenso da foto, o tamanho do arquivo). Com a transcodificaes, os computadores podem relacionar diferentes tipos de arquivos (textos, udios, vdeos etc) a partir destas convenes. Ao identificar a organizao estrutural reconhecida por humanos como camada cultural (cultural layer) e as convenes dos computadores como camada computacional (computer layer), e ao considerar que as novas mdias so criadas, distribudas, armazenadas e arquivadas em computadores, Manovich (2001) acredita que a camada computacional dever comear a influenciar de forma significativa na lgica cultural tradicional da mdia; ou seja, a camada computacional dever influenciar a camada cultural. Para ilustrar como as mdias podem ser estruturadas por BDs e como podem explorar os princpios propostos por Manovich, citamos como exemplo os vdeos do site YouTube13: enquanto os suportes tradicionais de vdeo (cinema e televiso) apresentam basicamente uma sucesso de imagens sincronizadas com uma ou mais trilhas de udio, o YouTube tem a
13
http://www.youtube.com
29 capacidade de apresentar o mesmo recurso (imagens em movimento com udio), mas tambm permite a combinao desse produto audiovisual com contedos que estejam em outros formatos e armazenadas em BDs, como, por exemplo, comentrios (em textos) ou links (atravs de figuras clicveis em forma de caixas). Para ilustrao, apresentamos um caso especfico de um vdeo do YouTube: nele, apresentado um comentrio do prprio autor (tela direita da Figura 1), que aparece em determinado local do plano do vdeo e em limitado perodo de tempo (circulado na Figura 1). O comentrio foi inserido de forma dinmica no vdeo, pois estava armazenado em uma tabela de base de dado.
Figura 1 Vdeo do YouTube com insero dinmica de comentrio sobreposto ao vdeo14
Ao final do vdeo, so mostradas duas caixas em determinadas reas que funcionam como links (marcadas na Figura 2), para remeter o usurio a outros vdeos do mesmo autor. A localizao e o tamanho das caixas, assim como o perodo de tempo e o link a qual remetem, so informaes fornecidas por uma base de dado.
14
Mystery Symphony. Disponvel em: < http://www.youtube.com/watch?v=Ul95hTnO3h4>. Acesso em: 25 jan 2011.
30
Figura 2 Vdeo do YouTube com insero dinmica de links sobrepostos ao vdeo15
O inter-relacionamento de diferentes formatos de mdias ocorreu porque as BDs podem relacionar dados que esto em formatos diferentes, mas codificados com o mesmo cdigo binrio (princpio da representao numrica). Para isso, o site relacionou tabelas16 de base de dados diferentes (ex.: relacionou a base de dados do audiovisual com as tabelas de comentrios armazenadas em outras tabelas), cruzou tais dados de forma automatizada (princpio da automao) para formar um novo produto resultado de vrias combinaes, embora os elementos que formam esse novo produto ainda mantenham as suas caractersticas prprias (princpio da modularidade). Esse produto ainda poderia ser apresentado de outras maneiras, atravs da agregao de elementos surgidos posteriormente publicao, como sobreposio de novos comentrios oriundos de redes sociais ou combinaes com outras mdias relacionadas que seriam publicadas no futuro (princpio da variabilidade). Alm do produto audiovisual com sobreposio dinmica de dados armazenados em BDs, o YouTube tambm apresenta uma pgina HTML que combina o resultado de outros cruzamentos de dados. Seguindo no exemplo do vdeo anterior, podemos perceber que a pgina dedicada ao vdeo em questo tambm apresenta resultados de buscas em BDs
15
Mystery Symphony. Disponvel em: < http://www.youtube.com/watch?v=Ul95hTnO3h4>. Acesso em: 25 jan 2011 16 O exemplo do vdeo no YouTube ilustra o funcionamento de uma base de dado relacional em um produto que envolve composio de uma pgina com elementos multimdia. Porm, cabe ressaltar que a empresa Google desenvolveu um modelo de base de dado prprio, denominado Bigtable, que tecnicamente no considerado relacional, mas distribudo, embora utilize tabelas, linhas e colunas (CHANG et al, 2006). Segundo desenvolvedores da empresa, embora o Bigtable no seja tecnicamente considerado modelo relacional, ele se assemelha a esse modelo no seu funcionamento, porm com algumas especificidades que o grande volume de dados gerado em seus servios exige e o modelo relacional no comporta. Logo, tomamos o exemplo do YouTube como uma possibilidade vivel em uma base de dados relacional.
31 diversas; o caso da seleo e apresentao de informaes relativas ao vdeo (ver marcao A na Figura 3), tais como descrio, nmero de visitas, avaliaes, lista de vdeos sugeridos por outros usurios como resposta ao vdeo apresentado na pgina (marcao B na Figura 3), comentrios de usurios (marcao C na Figura 3) e vdeos relacionados ao apresentado na pgina (marcao D na Figura 3).
Figura 3 Pgina de vdeo do YouTube com insero dinmica de dados17
17
Mystery Symphony. Disponvel em: < http://www.youtube.com/watch?v=Ul95hTnO3h4>. Acesso em: 25 jan 2011
32 Provavelmente, o autor18 do vdeo apresentado neste caso tem na criao de seus audiovisuais a influncia da camada computacional. Percebemos que, em alguns de seus vdeos, a personagem costuma realizar gesticulaes com as mos e apontar com os dedos para as caixas de link criadas pelo editor do vdeo, demonstrando que a produo de imagens pode ser planejada de acordo com os elementos gerados a partir de BDs. Alm disso, seus vdeos podem apresentar uma linha de criao que privilegia a participao de seu pblico, j que em muitos produtos h a incorporao de materiais produzidos pelos usurios, como o caso ilustrativo da Figura 3, em que a edio rene gravaes enviadas pelos usurios para, ento, formar um concerto musical de maneira colaborativa. A proposta de envio de materiais articulada nos comentrios da pgina do YouTube, ou seja, atravs de um elemento gerado pela BD. Assim como o vdeo do YouTube apresentado no exemplo anterior, outros produtos culturais de nossa era so planejados, desenvolvidos, estruturados e apresentados com uma esttica caracterstica que os diferenciam dos produtos tradicionais. Nessa esttica, as diferentes mdias so combinadas com elementos gerados a partir das BDs, tais como os comentrios e avaliaes de usurios, os links e as sugestes automticas de contedos relacionados. Do mesmo modo que a narrativa literria ou cinematogrfica um plano arquitetnico na Modernidade, a Base de Dados emerge como uma forma cultural tpica para estruturar as informaes sobre o mundo/realidade na cultura dos computadores (MACHADO, 2006, p. 17). Portanto, mais do que uma mera ferramenta de armazenamento, as BDs passam a ser a tecnologia fundamental na organizao, estruturao e apresentao de contedos diversos, tanto os culturais e artsticos quanto os prprios produtos informativos e miditicos (como os jornalsticos). A importncia das BDs emerge no apenas pela funo facilitadora na insero, edio, seleo e combinao de dados, mas tambm por ser a estrutura elementar de uma esttica tpica da era dos computadores; uma era marcada pelo crescimento exponencial dos dados e acostumada com a estrutura do hipertexto e com a convenincia da interao homemmquina, caractersticas essas que distanciam os atuais contedos digitais dos formatos tradicionais, limitados no espao/tempo e com possibilidades hipertextuais e interativas restritas. Para este formato tpico dos computadores, Farbiaz e Barbosa (2009) apresentam o termo esttica base de dados (database aesthetic), termo que na rea da arte digital significa
18
O MysteryGuitarMan um produtor assduo do site YouTube, com produo mensal de vdeos e com mais de 300 milhes de exibies em janeiro de 2012. Estatsticas disponveis na pgina do usurio no YouTube. Disponvel em: <http://www.youtube.com/user/MysteryGuitarMan>. Acesso em: 25 jan. 2012.
33 os princpios estticos aplicados na imposio da lgica das bases de dados a qualquer tipo de informao, filtro de colees de dados e visualizao dos dados 19 (PAUL, online, p. 1), princpios esses presentes nos produtos das BDs que caracterizam a produo cultural de nossa era. Por isso, Manovich defende que as BDs so formas culturais tpicas das sociedades em redes, pois estruturam todo o processo criativo quando o objeto consiste de uma ou mais interfaces vinculadas s BDs (MACHADO, 2006). No contexto do jornalismo digital, a esttica base de dados uma metfora com um modo particular para a apresentao das informaes jornalsticas j desvinculado da metfora do impresso - broadsheet metaphor - e que procede diretamente do emprego das BDs (FARBIAZ E BARBOSA, 2009, p. 1). Segundo Machado, evidente que h uma migrao do conhecimento produzido pelas organizaes jornalsticas para as BDs, e por isso que a plena incorporao destas organizaes lgica do ciberespao pressupe uma adequao de suas estruturas ao formato das Bases de Dados (2006, p. 7). Para o autor, a modalidade jornalstica que usa as BDs utiliza esta tecnologia para todos os processos de produo jornalstica: apurao, composio e circulao. 1.2.3 Bases de dados no jornalismo Embora o jornalismo digital tenha passado a adotar as BDs em seus produtos na terceira gerao do webjornalismo (RIBAS, 2004), no foi a primeira vez que elas foram incorporadas a essa prtica profissional. Ainda na dcada de 1970, segundo Barbosa (2007), as BDs j eram utilizadas nas redaes, porm no como forma de organizao ou apresentao da narrativa jornalstica; elas eram utilizadas como ferramentas de arquivamento e, em seguida, como auxlio ao processo de apurao dentro das redaes, contribuindo para o desenvolvimento da Reportagem Assistida por Computador (CAR). Como exemplo de sistema de armazenamento, Machado (2006) cita o caso do The New York Times que na metade dos anos 1980 j possua uma base de dados com trs milhes de documentos. Entretanto, poucas empresas jornalsticas so estruturadas em BDs, por mais que estas ofeream vantagens pesquisa e apurao jornalsticas. O autor tenta buscar uma resposta a esse enigma e, para isso, evoca os conceitos de mnm e anmnsis do filsofo grego Aristteles. A mnm significa a simples conservao do passado; j a anmnsis consiste na ativao desse passado no presente. As redaes geralmente seguem a linha do primeiro
19
[] aesthetic principles applied in imposing the logic of the database to any type of information, filtering data collections, and visualizing data [].
34 conceito ao utilizarem as BDs apenas como sistema de armazenamento da memria em redes de dados internas e, assim, deixam de aproveitar a potencialidade de se construir narrativas com a explorao dos dados armazenados de forma estruturada. As BDs j eram utilizadas em redaes antes do surgimento da web, mas podemos identificar potencialidades de sua incorporao especificamente no jornalismo digital. Segundo Machado, a lgica arquivista no conceito de mnm contraria as caractersticas da memria no ciberespao porque mantm um processo individual e centralizado da produo (2006, p. 26). O autor afirma ainda que para haver a incorporao da lgica das bases de dados s empresas jornalsticas, dever ocorrer a utilizao casada das funes de modelo de estruturao da informao, espao para a criao de narrativas e lugar para a ativao da memria (2006, p. 27). Nesse sentido, a base de dados se constituiria como espao para a criao de narrativas porque mais do que um sistema matemtico-lgico de armazenamento, as bases de dados assumem trs funes na sociedade: 1) de formato para a estruturao da informao; 2) de suporte para modelos de narrativa multimdia e 3) de memria dos contedos publicados (MACHADO, 2006, p. 16); e por essa razo o autor concorda com Manovich na afirmao de que a base de dados uma forma cultural tpica das sociedades das redes, assim como a tradicional narrativa linear tambm uma forma cultural, construda em suportes lineares como voz, impresso, TV e rdio. No entanto, ao invs de contrapor as duas formas culturais (BDs x narrativas), Manovich afirma que necessrio reconsiderar o conceito de narrativa, pois se no conceito tradicional uma narrativa um objeto cultural que possui um narrador, um ator (ou mais) e uma histria com uma sequncia de eventos (MACHADO, 2006), hoje, com as interfaces interativas, as narrativas nas novas mdias giram em torno de um espao no necessariamente linear, navegvel (atravs dos hiperlinks), ativado por um usurio que detm o controle da navegao. Alm da produo de narrativas, as BDs na web tambm potencializam o consumo da informao, pois, diferentemente das redes internas e privadas de arquivamento de dados, no jornalismo digital os usurios tm acesso s BDs de forma instantnea, atravs de sistemas de busca presentes nos sites ou a partir do prprio produto jornalstico, j que os contedos armazenados em BDs so apresentados ao usurio em interfaces hipertextuais. Estas interfaces so apresentadas em forma de narrativa e a potencialidade est justamente na possibilidade de desenvolver diferentes modelos de narrativas a partir das BDs. por isso que a base de dados no em si um novo tipo de narrativa ou uma concorrente da narrativa linear tradicional, mas sim um suporte para o desenvolvimento de diferentes modelos de narrativa multimdia (MACHADO, 2006, p. 24).
35 No jornalismo digital, a tecnologia da base de dados oferece alguns recursos que, combinados, enriquecem as formas de se organizar, gerenciar e apresentar as informaes. Segundo Barbosa, no jornalismo, as BDs:
[...] desempenham um conjunto de funes percebidas tanto quanto gesto interna dos produtos, quanto aos processos de apurao e contextualizao, estruturao das informaes, composio das peas informativas, assim como recuperao das informaes e apresentao dos contedos (BARBOSA, 2007, p. 27).
Para que as funes citadas possam ser aplicadas aos produtos jornalsticos, necessrio que os contedos de tais produtos sejam formatados e inseridos nas BDs de forma prtica, gil e acessvel ao jornalista, j que nem sempre esses profissionais apresentam conhecimentos tcnicos apurados de informtica. Para a publicao de contedos formatados lgica das BDs, utilizam-se sistemas de publicao que so ferramentas ou sistemas que facilitam a incluso de informaes em produtos ou servios internet com vistas a deixar o contedo na pgina ou no mecanismo para ser acessado a posteriori (Schwingel, 2008, p. 5). Estes sistemas de publicao so constitudos basicamente por formulrios digitais que permitem a insero de dados textuais e multimdia em uma base de dados. Geralmente, os sistemas exigem uma identificao, com senha do usurio que publica os dados, e permitem o acesso de mltiplos usurios que podem portar permisso para a edio de um mesmo contedo, resultando em sistemas de produo colaborativa. As ferramentas de publicao, alm de alimentarem as BDs em uma estrutura apropriada, passaram a ter a capacidade de gerenciar os contedos armazenados, tanto de forma manual, atravs da edio dos contedos pelos jornalistas, como de forma automtica, ao realizarem operaes massivas ou especializadas sem a interveno humana, como no caso de se reordenar ou filtrar milhares de registros armazenados, ou de se inter-relacionar dados diferentes a fim de se obter novos dados. Esta ferramenta de publicao mais complexa foi denominada de Content Management Systems (CMS) ou simplesmente Sistemas Gerenciadores de Contedo (SGC) que, alm da publicao, edio e automatizao de operaes, tambm oferecem ferramentas para seleo, aprovao e edio dos contedos (SCHWINGEL, 2009), aproximando ainda mais essa ferramenta dos processos produtivos jornalsticos. Schwingel esclarece que um sistema publicador para jornalismo digital mais complexo que as ferramentas de publicao utilizadas em blogs, pois visam incorporar efetivamente as caractersticas do Jornalismo Digital tanto na concepo do site (na
36 arquitetura da informao do produto) quanto na estrutura da notcia (na arquitetura da informao de cada matria) (SCHWINGEL, 2004, p. 5). Portanto, os possveis novos modelos de narrativas na web no dependem apenas da estrutura das BDs, mas tambm dos CMS, j que so eles que determinam a entrada e o gerenciamento dos contedos nas BDs. Para Machado,
[...] mais do que definir o sistema de gesto de contedos como requisito tecnolgico essencial para a composio de narrativas multimdia em Bases de Dados, existe a necessidade de perceber que, no caso jornalstico, este sistema deve apresentar determinadas caractersticas particulares. A diversidade de etapas do processo de produo de contedos jornalsticos apurao, composio, circulao demanda a existncia de um sistema complexo de produo e gesto, que seja capaz de incluir subsistemas especficos (MACHADO, 2006, p. 62).
Os CMS no so apenas ferramentas de entrada e gerenciamento de contedos; os CMS so, geralmente, plataformas que englobam toda a estrutura do site (desde a entrada dos dados at a apresentao da interface) e podem realizar operaes automatizadas de seleo, filtro e categorizao dos dados armazenados para apresent-los ao usurio. Alm da automatizao na apresentao, alguns CMS mais complexos tambm podem automatizar a insero de dados nas BDs, como no caso de sites que automaticamente armazenam o nmero de vezes que uma notcia foi acessada, compartilhada ou avaliada pelos usurios. 1.2.4 JDBD: paradigma para a quarta gerao do jornalismo digital Ao associarmos os produtos jornalsticos da terceira gerao com a emerso de diversas tecnologias e prticas sociais na web em um contexto da esttica base de dados, podemos apontar para indcios de uma nova gerao de produtos jornalsticos, em que os jornalistas no apenas inserem as caractersticas do jornalismo digital em seus produtos, mas tambm experimentam novas narrativas e diferentes suportes alm da web. Barbosa cita diversos destes indcios que caracterizam um movimento para a quarta gerao:
O cenrio no qual emerge a quarta gerao do ciberjornalismo marcado pela consolidao das bases de dados como estruturantes da atividade jornalstica e como agentes singulares no processo de convergncia jornalstica; equipes mais especializadas; desenvolvimento de sistemas de gesto de contedos (SGC) mais complexos e baseados preponderantemente em softwares e linguagens de programao com padro open source, formato XML (eXtensible Markup Language), algoritmos; acesso expandido por meio de conexes banda larga; proliferao de plataformas mveis; consolidao do uso de blogs; ampla adoo de recursos da Web 2.0; incorporao de sistemas que habilitam a participao efetiva do usurio na produo de peas informativas; produtos diferenciados criados e
37
mantidos de modo automatizado; sites dinmicos; narrativas multimdia; utilizao de recursos como RSS (Really Simple Syndication) para recolher, difundir e compartilhar contedos; aplicao da tcnica do tagging na documentao e na publicao das informaes; uso crescente de aplicaes mash-ups; do conceito de geolocalizao de notcias ou geocoding news; uso do podcasting para distribuio de contedos em udio; ampla adoo do vdeo em streaming; novos elementos conceituais para a organizao da informao; maior integrao do material de arquivo na oferta informativa; produtos experimentais que incorporam o conceito de web semntica; emprego de metadados e data mining para categorizao e extrao de conhecimento; aplicao de novas tcnicas e mtodos para gerar visualizaes diferenciadas para os contedos jornalsticos que auxiliam a sobrepujar a metfora do impresso (broadsheet metaphor) como padro (BARBOSA, 2008a, p. 9).
Como observado acima, os produtos jornalsticos passam a incorporar novas tcnicas em suas fases de apurao, composio e circulao, que potencializam as caractersticas do jornalismo digital de terceira gerao tais como a interatividade (ex.: incorporao de sistemas que habilitam a participao efetiva do usurio na produo de peas informativas), a multimidialidade (ex.: uso do podcasting para distribuio de contedos em udio; ampla adoo do vdeo em streaming;), customizao (ex.: conceito de geolocalizao de notcias ou geocoding news), atualizao contnua (ex.: utilizao de recursos como RSS para recolher, difundir e compartilhar contedos), hipertextualidade (ex.: aplicao de novas tcnicas e mtodos para gerar visualizaes diferenciadas para os contedos jornalsticos) e memria (pelo uso intensivo do prprio banco de dados). Barbosa (2007) sugere que nessa transio entre a terceira e a quarta gerao, desponta um paradigma que passa a definir as caractersticas dos produtos jornalsticos da quarta gerao. A esse paradigma, a autora denominou Jornalismo Digital em Base de Dados (JDBD), que, em suas palavras, :
[...] o modelo que tem as bases de dados como definidoras da estrutura e organizao, bem como da apresentao dos contedos de natureza jornalstica, de acordo com funcionalidades e categorias especficas, que vo permitir a criao, a manuteno, a atualizao, a disponibilizao e a circulao de produtos jornalsticos digitais dinmicos (BARBOSA, 2007, p. 218).
As funcionalidades citadas pela autora em sua conceituao de JDBD foram identificadas atravs da leitura de outros autores que estudam o tema. No total, Barbosa elencou 18 funcionalidades das BDs no jornalismo digital, que so:
Indexar e classificar as peas informativas e os objetos multimdia; Integrar os processos de apurao, composio e edio dos contedos; Conformar padres novos para a construo das peas informativas; Agilizar a produo de contedos, em particular os de tipo multimdia; Propiciar categorias diferenciadas para a classificao externa dos contedos;
38
Estocar o material produzido e preservar os arquivos (memria), assegurando o processo de recuperao das informaes; Permitir usos e concepes diferenciadas para o material de arquivo; Garantir a flexibilidade combinatria e o relacionamento entre os contedos; Gerar resumos de notcias estruturados e/ou matrias de modo automatizado; Armazenar anotaes semnticas sobre os contedos inseridos; Habilitar o uso de metadados para anlise de informaes e extrao de conhecimento, seja por meio de tcnicas estatsticas ou mtodos de visualizao e explorao, como o data mining; Ordenar e qualificar os colaboradores e reprteres cidados; Orientar e apoiar o processo de apurao, coleta e contextualizao dos contedos; Regular o sistema de categorizao de fontes jornalsticas; Sistematizar a identificao dos profissionais da redao; Cartografar o perfil dos usurios; Transmitir e gerar informaes para dispositivos mveis (celulares, computadores de mo, iPods, entre outros); Implementar publicidade dirigida (BARBOSA, 2007, p. 220).
As funcionalidades citadas no so regras: so possibilidades. Nem sempre os produtos jornalsticos em BDs exploram tais funcionalidades, mas possvel perceber que eles compartilham algumas caractersticas que os definem. Em uma investigao (doutoral), Barbosa (2007) analisou diversos destes produtos e elencou sete categorias que demarcam e complementam as particularidades do JDBD. So elas: dinamicidade, automatizao, interrelacionamento/hiperlinkagem, flexibilidade, densidade informativa, diversidade temtica e visualizao. A seguir, apresentamos uma breve explanao sobre cada uma delas: a) dinamicidade: a caracterstica bsica das BDs de dinamizar os contedos apresentados em produtos da web. Ao contrrio do contedo esttico dos sites produzidos apenas em HTML, os contedos oriundos das BDs so dinmicos porque podem mudar seu estado sem a interveno direta de um programador no cdigo-fonte do site em que tal contedo apresentado. a dinamicidade que possibilita a caracterstica da automatizao. Ela tambm vai permitir a legitimao das outras categorias; b) automatizao: ocorre quando os dados so manipulados de forma automtica pela mquina, ou seja, quando no h a necessidade da interveno humana direta para que ocorra uma mudana de estado. H trs tipos bsicos de automatizao: a parcial (aplicada apenas a algumas etapas do processo de produo jornalstica), a procedimental (quando mais etapas do processo jornalstico ocorrem de forma automatizada) e a total (quando o produto jornalstico funciona de forma totalmente automatizada). A automatizao permite que os jornalistas poupem tempo em atividades repetitivas e se dediquem produo intelectual e analtica; c) flexibilidade: a tecnologia das BDs traz certas facilidades produo jornalstica, pois assegura maior agilidade, qualidade e flexibilidade produo. Com elas, os sistemas de
39 apurao se tornam menos hierarquizados, os contedos so mais facilmente recuperados e o trabalho dos jornalistas se torna mais autnomo e descentralizado, j que podem produzir e publicar de qualquer lugar com acesso rede; d) inter-relacionamento/Hiperlinkagem: considerado pela autora como um dos grandes potenciais das BDs, a capacidade de identificar padres combinatrios e interrelacionamentos diversos entre as informaes (BARBOSA, 2007, p. 238). A tecnologia tem o poder de vasculhar rapidamente grandes quantidades de dados e identificar quais deles podem ser inter-relacionados, de acordo com o contexto; e) densidade informativa: a quantidade de informaes presente em um contedo. Geralmente, uma notcia inicialmente apresentada com uma baixa densidade, mas com o decorrer do tempo a densidade elevada com a insero de novas informaes, na medida em que a notcia complementada, alterada, corrigida, contextualizada ou aprofundada. Essa caracterstica baseada no conceito de resoluo semntica, apresentado por Fidalgo (2004), que usa como metfora o conceito de resoluo j utilizado para se referir a imagens digitais formadas por mais pixels por polegada (maior resoluo) ou menos pixels por polegada (menor resoluo). Um produto jornalstico que obtm dados de diversas fontes ter uma densidade informativa maior; f) diversidade temtica: tambm relacionada ao conceito de resoluo semntica, a categoria representa a diversidade de tematizaes alm das mais comuns (como poltica, economia, esportes, cultura, cincia, sade e tecnologia); g) visualizao: so as diferentes maneiras de se representar na tela as informaes jornalsticas armazenadas nas BDs. Nesta categoria, deve-se considerar as noes de metadados, de data mining e da tree map, esta a responsvel pela gerao de visualizaes tpicas da esttica de base de dados, como o Squarified, um tipo de interface que apresenta manchetes em retngulos com dimenses que se alteram de acordo com a popularidade das notcias (ver exemplo na Figura 4);
40
Figura 4 Tela do site OurSignal, que rene publicaes de diversos sites e os apresenta em retngulos20
Um ano aps a publicao da pesquisa, a autora apontou mais quatro funcionalidades das BDs no jornalismo digital:
Sustentar a produo e a distribuio dos contedos; Gerenciar o fluxo de informao e o conhecimento nas redaes; Integrar distintas plataformas; Suportar aes de interao que envolvam usurios e profissionais atravs do contedo informativo e de entretimento (reportagens investigativas associadas a informaes de servio, ou at mesmo vinculados a algum game, por exemplo) (BARBOSA, 2008a, p. 12).
Da mesma maneira que ocorreu com as funcionalidades, Barbosa integrou uma nova categoria em pesquisa posterior: h) convergncia: tomar as bases de dados como um agente central no processo de convergncia. A este processo, Barbosa deixa claro que muito mais do que apenas a unio de diversos formatos de mdia em um nico produto. A convergncia ocorre nos processos de produo e de distribuio, nas plataformas, no comportamento de produtores e consumidores. Segundo a autora:
Para o jornalismo, a convergncia significa integrao entre meios distintos, produo de contedos combinando multi-plataformas para publicao e distribuio, convergncia estrutural com a reorganizao das redaes e a introduo de novas funes para os jornalistas, uso associado de tecnologias da informao, softwares, sistemas inteligentes, audincia ativa, explorao do potencial interativo, hipertextual e multimdia da internet, e tambm a construo de narrativas jornalsticas em conformidade com tais recursos (BARBOSA, 2008b, p. 2)
20
Disponvel em: <http://oursignal.com>. Acesso em: 13 dez. 2011.
41 As categorias do JDBD abrangem diversos aspectos da produo jornalstica, o que demonstra o quanto a estrutura da informao determinada pelas bases de dados. Porm, nem sempre esta prtica referenciada na academia e no mercado como Jornalismo Digital em Base de Dados. Em alguns pases, como EUA e Inglaterra, h jornalistas, empresas jornalsticas e pesquisadores que tratam deste tema e utilizam outros termos para se referenciarem a tal prtica. Barbosa (2011), em entrevista para um blog especializado em jornalismo digital, diz que h outros termos que, para ela, esto no escopo que abarca o Jornalismo Digital em Base de Dados (2011, online). A autora cita os termos data driven journalism e data journalism. Em pesquisas livres na web realizadas pelo autor do presente trabalho, outros termos tambm surgem, como database journalism e data visualization; este ltimo utilizado no apenas por jornalistas, mas tambm por designers ou cientistas da computao que trabalham com a visualizao iconogrfica dos dados, com o intuito de facilitar a obteno de informaes relevantes de grandes colees de dados.
1.3 Jornalismo de dados Atualmente, possvel encontrar organizaes e profissionais da rea da comunicao que experimentam articular colees de dados estruturados a narrativas jornalsticas atravs da explorao de recursos computacionais. Grande parte destas organizaes trata desta prtica como data journalism, traduzido neste trabalho como jornalismo de dados. 1.3.1 Conceito de data journalism Dos resultados obtidos na presente investigao sobre data journalism, foram encontrados diversos materiais produzidos por organizaes jornalsticas que tomaram a dianteira na integrao de produtos jornalsticos com tecnologias da informao. Uma destas organizaes o jornal britnico The Guardian, que possui uma equipe com profissionais que se autodenominam data journalists; tambm mantm blogs sobre o tema e ainda apoiou a publicao de um livro sobre o tema. No livro Facts are sacred: the power of data, o jornalista Simon Rogers, do The Guardian, apresenta algumas discusses sobre o que data journalism. Entre vrios conceitos, Rogers (2011) afirma que a prtica uma forma de se obter histrias interessantes a partir de colees de dados que, em seu estado bruto, no parecem contar histria alguma. Para ele, a prtica no nova, mas a diferena que agora h o auxlio de computadores e, no menos importante, de dados estruturados em planilhas ou
42 outros arquivos formatados de uma maneira que as mquinas consigam manipular estes dados. Ainda que os computadores realizem processamentos automatizados, Rogers deixa claro que o bom jornalismo de dados depende das habilidades e competncias de um bom profissional jornalista.
Voc pode se tornar um programador de gabarito se quiser. Mas o maior trabalho muito mais pensar sobre os dados como um jornalista do que como um analista. O que h de interessante sobre esses nmeros? O que h de novo? O que acontece se eu mesclar isso tudo com outras coisas? Responder a estas questes mais importante do que qualquer outra coisa (ROGERS, 2011, edio para Kindle, location 82-1637) 21.
Para o The Guardian, o profissional que trabalha com data journalism um data journalist. No site Data Blog22, o jornal publica postagens de jornalistas especializados em processar dados crus (raw data) para obteno de informaes relevantes ou apresentao dos mesmos em formatos mais interessantes visualmente, como infogrficos e tabelas. Um desses jornalistas, Paul Bradshaw, publicou no referido blog um artigo em que ensina aos leitores como ser um data journalist. Para isso, Bradshaw (2010) apresenta um processo de quatro passos bsicos: 1) Encontrar os dados (finding data): uma ao que, dependendo da situao, exige desde conhecimentos para a operao de tcnicas tpicas da tcnica CAR (Computer Assisted Reporting) at conhecimentos mais especficos, como a minerao de dados com o uso das linguagens MySQL ou Python. 2) Interrogar os dados (interrogating data): uma operao que demanda do jornalista um bom conhecimento do contexto em que os dados esto inseridos e, tambm, de estatsticas, em que planilhas eletrnicas podem auxiliar. 3) Visualizar os dados (visualising data): visualizar e combinar dados costuma ser uma operao realizada por designers e programadores, porm muitos jornalistas j comeam a explorar essa operao devido quebra de barreiras tcnicas que permitem experimentar tais operaes e ao fato dos jornalistas terem conscincia das possibilidades que tm em mos.
21
You can become a top coder if you want. But the bigger task is to think about data like a journalist, rather than na analyst. Whats intersting about these numbers? Whats new? What would happen if I mashed it up with something else? Andwering those questions is more importante than something else. 22 Disponvel em: <http://www.guardian.co.uk/news/datablog>. Acesos em: 13 nov 2011.
43 4) Combinar dados (mashing data): muitas ferramentas para combinao e visualizao de dados esto disponveis hoje na web para estudantes e jornalistas, tais como o Many Eyes e o Yahoo Pipes23. Assim como o The Guardian, h outras empresas jornalsticas que tambm rumam para o desenvolvimento de equipes especializadas em data journalism e publicam sites dedicados ao tema. Alm do j citado Data Blog do The Guardian, podemos citar o Data Desk24, do Los Angeles Times, em que so apresentados produtos jornalsticos baseados em BDs, como infografias interativas em base de dados. Outro jornal influente com iniciativas semelhantes o The New York Times que publica dois sites especializados: o blog Open25, escrito pela equipe de programadores e desenvolvedores, com debates sobre questes relacionadas a jornalismo e computao, e o site Linked Open Data26, em que so disponibilizadas colees de dados estruturados para uso em aplicaes da Web Semntica (linked data) e abertos para o livre uso por parte dos usurios (open data). At aqui, o jornalismo de dados parece ser um termo aplicado ao processo de apurao jornalstica em colees de dados estruturados. Porm, no s nas rotinas de produo jornalstica que o termo se aplica: tambm so utilizadas tcnicas de gerenciamento dos dados na apresentao dos produtos jornalsticos. Algumas organizaes jornalsticas, como o The Guardian e a BBC, costumam integrar jornalistas, programadores e designers em operaes de busca, combinao e apresentao dos dados em produtos multimdia interativos. A seguir, tratamos sobre a aplicao das bases de dados na estruturao visual dos produtos jornalsticos. 1.3.2 Visualizao de dados As funes das bases de dados alcanam os diversos aspectos do produtos jornalstico. Desde as rotinas produtivas at o consumo. Destes aspectos, a apresentao visual do produto uma das mais impactadas pelas funes das BDs, justamente porque nela que so materializadas as experimentaes de novas formas de narrativa nos produtos jornalsticos, alm de ser tambm a etapa em que entram em jogo as caractersticas da multimidialidade e da interatividade. A visualizao ocorre atravs de uma interface que pode ser construda com
23 24
Disponvel em: <http://pipes.yahoo.com/pipes/>. Acesso em: 15 nov 2011. Disponvel em: <http://projects.latimes.com/index/>. Acesso em: 15 nov 2011. 25 Disponvel em: <http://open.blogs.nytimes.com/>. Acesso em: 15 nov 2011. 26 Disponvel em: <http://data.nytimes.com/>. Acesso em: 15 nov 2011.
44 elementos hipertextuais, interativos e multimdia, e ainda alimentada de forma dinmica e automatizada pelas BDs, caracterizando assim uma interface que porta uma esttica de base de dados tpica da cultura dos computadores. So interfaces que apresentam elementos tpicos como links, listas dinmicas, rankings de mais lidos ou acessados, convergncia de formatos de mdia, menus interativos, caixas com colaboraes de usurios, entre outros. Entre as possibilidades de narrativas jornalsticas baseadas em BDs, podemos citar as infografias, que so elementos jornalsticos que unem grafismos (imagens, fotografias, ilustraes, mapas, smbolos etc) e informaes textuais, e que geralmente so utilizadas como complemento, contextualizao ou auxlio na compreenso de matrias jornalsticas. Embora as infografias j existam no suporte impresso desde muito antes dos computadores, a computao, a internet e as BDs agiram como agentes remediadores27 na evoluo deste recurso. Em estudo sobre esse tipo particular de narrativa, a pesquisadora Adriana Rodrigues desenvolveu em sua dissertao uma investigao sobre diferentes tipos de infografias interativas em bases de dados. Para a autora:
A infografia interativa em base de dados conduz, entre outros fatores, a uma redefinio do prprio conceito de infografia. Entendemos por infografia em base de dados, como o nome sugere, aquelas produzidas tendo como mola propulsora o cruzamento ou insero das bases de dados nas suas produes, e cujo nvel de complexidade se eleva, pois pode requerer do usurio uma interpretao, uma anlise mais aprofundada com nveis de interatividade maior, a depender de cada grfico, funcionando como um mecanismo de explorao da informao (RODRIGUES, 2009, p. 37).
Antes de se integrarem s BDs, as infografias j tinham sido potencializadas pela web com o uso de recursos multimdia e interativos, como as animaes em Flash e os links do hipertexto; no entanto, as BDs possibilitaram novas aplicaes a esses recursos, como no caso do processamento e visualizao instantneos de grandes quantidades de dados ou a possibilidade do usurio interferir na visualizao, como, por exemplo, ao inserir dados em campos de formulrio e, a partir disso, a infografia alterar a visualizao de acordo com as coordenadas inseridas pelo mesmo. Segundo Rodrigues (2009), a essas possibilidades Manovich utiliza o termo visualizao dinmica de dados.
Barbosa apresenta o conceito de remediation segundo os autores Bolter & Grusin: implica o reconhecimento do meio anterior, da sua linguagem e da sua representao social. Significa dizer que todos os meios tm o seu sistema de produo afetado pela chamada nova mdia, que, por outro lado, tambm possibilita algumas rupturas. [...] De acordo com os autores norte-americanos, as novas mdias remediam, melhoram seus predecessores [...]. A internet, por sua vez, remedia todos os meios, melhorando-os em muitos aspectos e acrescentando recursos novos (BARBOSA, 2005, p. 1315-1316).
27
45 Ainda em relao s infografias, as BDs oferecem recursos necessrios para a combinao de diferentes tipos de dados em um mesmo plano visual, seja ele em 2D ou 3D. A estrutura da internet e da web permitem ainda que tais combinaes possam ser realizadas a partir de dados oriundos de fontes diferentes, como, por exemplo, de mais de um site ou servio online. A essa possibilidade de combinao, Manovich denomina remixabilidade e caracteriza o momento atual como de "profunda remixabilidade" (RODRIGUES, 2009). Como exemplo, podemos citar as infografias que mostram textos informativos ou sinais visuais combinados com mapas do servio Google Maps. Na Figura 5, Rodrigues apresenta um exemplo de infografia que identifica de forma georreferenciada as ocorrncias de homicdios na cidade de Los Angeles. Na coluna esquerda, o usurio pode selecionar os filtros desejados e, direita, so mostrados indicadores visuais e textuais em uma camada acima do mapa gerado pelo servio Google Maps.
Figura 5 Infografia em base de dados do Los Angeles Times sobre a ocorrncia dos homicdios (RODRIGUES, 2009, p. 44)
Embora o impacto visual seja uma caracterstica dos infogrficos da web, a autora ressalta que mais importante do que este impacto a organizao e a clareza dos dados ali representados. Por isso, importante a reflexo sobre a forma como os dados so organizados na BD e como so recuperados na infografia. A infografia deve estar estruturada como um mapa, como um esquema de navegao ao usurio, mas mantendo possibilidades de
46 navegao (no-linearidade), isto , o cruzamento entre os dados. Aps a anlise de 23 infografias oriundas de nove jornais digitais, Rodrigues conclui que a infografia interativa em base de dados promove uma ruptura qualitativa com relao aos modelos estticos de narrar o fato infograficamente (2009, p. 106). Na web, possvel encontrar iniciativas de experimentaes com infografias interativas em base de dados. Um dos projetos frequentemente citados (RODRIGUES, 2009; BARBOSA, 2007) o Many Eyes28, da IBM. No site do projeto, em que qualquer usurio pode criar sua visualizao ou explorar visualizaes criadas por outros usurios, so apresentadas vrias formas de visualizao para uma mesma coleo de dados. Entre estas formas de visualizao, que geralmente so interativas e dinmicas, encontramos mapas, taxonomias (word tree), grficos em barra (bar chart), grficos em pizza (pie chart), grficos em bolhas (bubble chart), diagramas em rede (network diagram) entre outros. Fernanda Vigas, cientista brasileira que faz parte do projeto, explica a importncia da visualizao para a compreenso humana:
Basicamente, metade de nosso crebro um hardware para a viso. Viso a maior largura de banda que ns temos, em termos de informao sensorial sobre o mundo exterior. Ento a visualizao significa aproveitar o fato de que ns somos to programados para entender o mundo a nossa volta atravs do que ns enxergamos 29 (VIGAS, 2010, online).
Se a infografia digital em bases de dados apresentam uma maior complexidade tcnica em relao aos modelos estticos, mais complexos ainda podem ser os software aplicativos. 1.3.3 Aplicativos jornalsticos Alberto Cairo, que j foi responsvel pelas infografias do jornal El Pas e diretor de infografia e multimdia da Editora Globo, ao tratar sobre o impacto da interatividade na visualizao de informaes jornalsticas, acredita que a complexidade dos infogrficos podem alcanar o aprimoramento tcnico do software aplicativo:
Adicionar interatividade, mesmo em pequenas quantidades, significa assumir um novo paradigma: compreender os grficos on-line como ferramentas de software, e no como apresentaes estticas; o leitor se transforma em usurio e a
28 29
Disponvel em: <http://www-958.ibm.com/software/data/cognos/manyeyes/>. Acesso em: 13 nov 2011. Basically, half our brain is hardwared for vision. Vision is the biggest bandwidth that we have, in terms of sensory information to the outside world. So visualization is taking advantage of the fact that we are so programmed to understand the world around us in terms of what we see.
47
infografia, em aplicativo. Esta pequena mudana de esquema mental ajuda a entender melhor o caminho a seguir: em um mundo onde o software est ao mesmo tempo se tornando cada vez mais sofisticado e fcil de usar, as expectativas de qualidade e de capacidade de controle sobre os programas do leitor/usurio so incrementadas. Como jornalistas, devemos atender a estas exigncias30 (CAIRO, 2008, p. 4, grifo do autor).
O conceito de produto jornalstico como software pode ir alm de uma interface mais complexa, mais interativa e que oferece maior controle. Atualmente, possvel encontrar iniciativas de organizaes jornalsticas que chegam a oferecer API31 de seus sistemas aos usurios. Um caso ilustrativo o do jornal britnico The Guardian, que possui um site chamado Open Plataform32 destinado a disponibilizar servios que permitem aos usurios criarem aplicativos com os contedos jornalsticos armazenados nas bases de dados do jornal. Entre os servios disponibilizados, se destacam: o Content API, que um mecanismo que permite ao usurio selecionar e coletar contedos do jornal (aproximadamente um milho de artigos desde 1999, alm de imagens, vdeos e tags), e o Data Store, um diretrio de colees de dados j estruturados para serem utilizados por aplicativos, como, por exemplo, em formato de planilha. Alm destes dois servios, o site Open Plataform ainda apresenta uma galeria de aplicativos desenvolvidos por usurios da web que utilizaram os servios do referido site. O conceito apresentado por Cairo sobre a infografia interativa como software aplicativo significativo porque nos leva reflexo sobre uma possvel tendncia da produo de contedos jornalsticos em formato de software. Manovich (2008) defende que o software o elemento que caracteriza a sociedade da informao global, assim como a eletricidade e o motor a combusto tornaram possvel a sociedade industrial. De acordo com o autor, os principais players que fazem a economia da sociedade da informao, tais como os trabalhadores do conhecimento, os analistas de smbolos e as indstrias criativas, s existem porque o software permite. Para Manovich, o software o centro das atividades
30
Aadir interactividad, aun en cantidades pequeas, implica asumir un nuevo paradigma: comprender los grficos online como herramientas de software, y no como presentaciones estticas; el lector se transforma en usuario y la infografa, en aplicacin. Este pequeo cambio de esquema mental ayuda a entender mejor hacia dnde avanzar: en un mundo en el que el software se hace cada da ms sofisticado y sencillo de usar al mismo tiempo, las expectativas de calidad y capacidad de control sobre los programas del lector/usuario se incrementan. Como periodistas, debemos satisfacer estas exigencias. 31 API a sigla para Application Programming Interface (interface para programao de aplicao). um recurso utilizado para que diferentes aplicativos ou servios se comuniquem entre si. Atravs da API, os desenvolvedores podem manipular os dados dos respectivos servios ou sites e, ento, desenvolver mashups ou aplicativos especficos para o servio/site em questo. Como exemplo, podemos citar os diversos software aplicativos independentes utilizados para a publicao de mensagens do site twitter.com: tais aplicativos s esto aptos a acessarem os dados do Twitter porque este disponibiliza uma API para os desenvolvedores. 32 Disponvel em: <http://www.guardian.co.uk/open-platform>. Acesso em: 26 nov. 2011.
48 globais nas reas da economia, cultura, vida social e, cada vez mais, da poltica. Por isso, o autor utiliza o termo cultural software; cultural no sentido de que o software usado por milhares de milhes de pessoas e que ele carrega tomos de cultura (mdia e informao, alm das interaes ao redor dessas mdias e informaes)
33
(MANOVICH, 2008, p. 3).
Embora o autor cite, principalmente, os software aplicativos utilizados para produo de contedos, tais como Microsoft Word, Adobe Photoshop ou Adobe Flash, ele tambm considera o prprio contedo miditico um software, j que as prprias interfaces das mdias - cones, pastas, sons, animaes e interaes do usurio - so tambm software cultural, j que estas interfaces mediam as interaes das pessoas com mdias e outras pessoas34 (MANOVICH, 2008, p. 13). O crescimento exponencial na venda de aparelhos smartphones35 nos ltimos anos ajudou a proliferar os aplicativos para aparelhos mveis (conhecidos como apps); e entre eles, esto os aplicativos jornalsticos (WANGLON, 2010), geralmente utilizados para distribuir notcias de um jornal especfico ou para agregar notcias de vrios jornais. Alm dos aplicativos nativos (que funcionam em um sistema operacional especfico), a W3C defende que o futuro lanamento da HTML5 (atualizao da atual verso da HTML) dever atribuir s pginas da web algumas das caractersticas dos programas de computador (LAMMEL, 2010), tornando-as aplicativos compatveis com diferentes sistemas e plataformas. Hoje, h organizaes jornalsticas que j desenvolvem produtos com esta tecnologia, tais como a The Economist36, a BBC37 e a Folha de S. Paulo38. Essa aproximao do jornalismo ao conceito de software demonstra um movimento dos tradicionais documentos hipertextuais da web para produtos mais complexos, que utilizam dados de forma mais intensa. Percebemos que os produtos digitais jornalsticos se enveredam por caminhos que os tornam geradores e consumidores de dados, pois tanto os software aplicativos quanto os produtos da web, na concepo do data journalism, geram e
33
[] cultural in a sense that it is directly used by hundreds of millions of people and that it carries atoms of culture (media and information, as well as human interactions around these media and information) []. 34 Moreover, the media interfaces themselves icons, folders, sounds, animations, and user interactions - are also cultural software, since these interface mediate peoples interactions with media and other people. 35 Somente no terceiro trimestre de 2011, houve crescimento de 42% na venda de smartphones no mundo (GARTNER, 2011). 36 The Economist explains its Electionism HTML5 app for iPad and Android. Disponvel em: <http://www.guardian.co.uk/technology/appsblog/2012/jan/18/economist-electionism-html5-tablet-app>. Acesso em: 07 fev. 2012. 37 BBC switches to HTML5 for mobile News vdeo. Disponvel em: <http://www.zdnet.co.uk/blogs/communication-breakdown-10000030/bbc-switches-to-html5-for-mobile-newsvideo-10025070/>. Acesso em: 07 fev. 2012. 38 Folha lana novo aplicativo para tablets e smartphones em HTML5. Disponvel em: <http://www1.folha.uol.com.br/mercado/1022054-folha-lanca-novo-aplicativo-para-tablets-e-smartphones-emhtml5.shtml>. Acesso em: 07 fev. 2012.
49 demandam uma alimentao constante de dados estruturados. Tal situao confirma o que j foi predito por Barbosa: que o cenrio em que emerge uma quarta gerao do jornalismo digital se caracteriza pela consolidao das bases de dados como estruturantes da atividade jornalstica e como agentes singulares no processo de convergncia jornalstica (BARBOSA, 2008a, p. 9). Ao mesmo tempo em que se consolida um ambiente tecnolgico cada vez mais dependente das bases de dados, percebe-se que o principal sistema de armazenamento de dados da atualidade, a World Wide Web, ainda mantm na sua essncia a mesma lgica de funcionamento idealizada em sua origem: a de um repositrio de documentos hipertextuais. Embora diversas tecnologias tenham surgido no decorrer dos anos e expandido as funcionalidades da rede (tais como as linguagens de script PHP, ASP e JavaScritp, as folhas de estilo CSS, a plataforma multimdia Flash, a linguagem de marcao XML e as prprias bases de dados relacionais), a web ainda demonstra limitaes tcnicas quando a questo a integrao das diferentes BDs com os dados no estruturados e em formatos no padronizados, como o caso dos documentos hipertextuais. Em outras palavras, surgem dvidas sobre como tantos sites, software aplicativos e infogrficos interativos podem aproveitar a imensa quantidade de dados e informaes armazenadas na web ao longo de mais de 20 anos, pois grande parte destes contedos est enclausurada dentro de documentos ou de diferentes bases de dados que no se comunicam entre si. O modelo relacional de BD no foi projetado para resolver esta questo. Segundo Mike Loukides, vice-presidente de estratgias de contedo da OReilly Media39:
A maioria das organizaes que construram plataformas de dados acha que necessrio ir alm do modelo relacional de base de dados. Os tradicionais sistemas de bases de dados relacionais deixaram de ser efetivos nessa escala [de quantidade de dados]. Gerenciar sharding40 e replicao de uma horda de servidores de bases de dados difcil e lento 41 (LOUKIDES, 2011, edio para Kindle, location 185).
O problema da grande quantidade de dados na atualidade vai muito alm da velocidade de processamento. Alm deste problema de ordem quantitativa, que atinge a eficincia do sistema, h tambm problemas de ordem qualitativa, que atinge a eficcia: como
39
A OReilly Media uma empresa especializada em livros tcnicos sobre programao e desenvolvimento web. Seu fundador, Tim O'Reilly, foi a responsvel por cunhar o termo Web 2.0. 40 Sharding uma tcnica de separao de tabelas de bases de dados relacionais em partes menores, permitindo a replicao destas partes entre bases de dados diferentes. 41 Most of the organizations that have built data platform have found it necessary to go beyond the relational database model. Traditional relational database systems stop being effective at this scale. Managing sharding and replication across a horde of database servers is difficult and slow.
50 se obter melhores resultados na busca de informaes significativas e no inter-relacionamento destas mesmas informaes em um ambiente como a atual web, saturada de dados em diferentes formatos e muitas vezes no estruturados? Para que as mquinas tenham a capacidade de processar e combinar quantidades to grandes de dados, publicadas diariamente de forma esparsa entre diferentes produtos digitais, uma srie de autores, empresas e profissionais, encabeados pelo cientista Tim Berners-Lee, afirma que tais mquinas deveriam portar a capacidade de compreender o significado destes dados, para que seja possvel, ento, a execuo de operaes automatizadas de identificao, associao e combinao de dados. Essa proposta de soluo tecnolgica denominada Web Semntica. Nela, busca-se substituir a lgica de publicao de documentos pela lgica de publicao de dados (BERNERS-LEE et al, 2001), em uma estrutura padronizada entre os sites da web, de maneira que todos possam, ento, compartilhar estes mesmos dados (pois esto estruturados em um mesmo modelo padro), o que permite a interoperabilidade entre os diferentes produtos digitais (W3C, 2001a). Segundo Berners-Lee, essa padronizao torna a web uma nica base de dados gigante (SIEGEL, 2009, p. 6; OLAVSRUD, 2003, online). Alm da interoperabilidade, a Web Semntica oferece recursos para que as mquinas possam compreender o significado das informaes publicadas, permitindo, assim, que elas realizem operaes automatizadas no gerenciamento dos dados. Tal cenrio pode vir a contribuir nas categorias do Jornalismo Digital em Base de Dados, e essa a preocupao central do presente trabalho. No prximo captulo, apresentamos mais detalhadamente o conceito da Web Semntica. Abordaremos a viso original de Tim Berners-Lee, o funcionamento das tecnologias que tornam a proposta vivel e alguns exemplos reais de aplicao que ilustram alguns dos benefcios desta ideia.
51
2 WEB SEMNTICA
A Web Semntica (WS) um conceito de uma rede digital de dados estruturados de tal forma que tanto humanos quanto mquinas tenham a capacidade de identificar o significado dos dados publicados, o que permitiria o desenvolvimento de aplicaes mais inteligentes, capazes de realizar determinadas operaes de forma automatizada. Ainda que j se falasse em tecnologias semnticas para a web na metade da dcada de 199042, o marco que impulsionou os debates sobre esse conceito foi a publicao de um artigo, em 2001, de autoria de Berners-Lee, junto com os autores Hendler e Lassila, em que apresentavam a WS como um passo evolutivo da atual web. Desde ento, a proposta encontra-se em desenvolvimento atravs dos esforos da W3C e de diferentes profissionais, estudiosos, empresas e entusiastas que trabalham, principalmente, com atividades relacionadas s reas de cincia da computao e sistemas de informao. Embora seja possvel encontrar discursos que a tratem como uma nova web, ela no uma rede separada da atual web, mas uma extenso dela (BERNERS-LEE et al, 2002); ou seja, a WS no apenas funciona de forma agregada web atual, como necessita do seu aporte tecnolgico. A partir dessa assero, julgamos necessrio retomar uma breve apresentao da tecnologia por trs da atual web, para que possamos, mais adiante, tecer comparativos e compreender a proposta (e o diferencial) da WS.
2.1 A web atual: uma rede de documentos
A internet uma estrutura tecnolgica que permite a transmisso de dados entre redes de computadores que utilizam o mesmo protocolo de comunicao. Ela no a interface grfica de apresentao de tais dados, pois eles podem ser recuperados e apresentados de diferentes maneiras pelos computadores. A formatao visual-grfica destes dados fica a cargo de outras tecnologias que funcionam a partir da estrutura da internet. Entre vrios sistemas j utilizados para a recuperao e apresentao de dados na internet (tais como o correio eletrnico, o FTP e o Gopher), destaca-se o mais popular: a World Wide Web (ou simplesmente web), que um sistema de armazenamento, recuperao e exibio de
42
Em 1996, ao refletir sobre o future da web no artigo The World Wide Web: Past, Present and Future, Tim Berners-Lee afirma que as mquinas poderiam participar de processos de anlises automatizados, mas, para isso, os dados publicados na web precisariam ser apresentados tambm em formatos interpretveis pelas mquinas e com semnticas definidas (BERNERS-LEE, 1996, online).
52 informaes que combina recursos de texto, hipermdia, imagens e som (AUDY, 2005, p. 186). Ela foi proposta pelo fsico britnico Tim Berners-Lee, entre os anos de 1989 e 199143, como um projeto paralelo que o cientista desenvolvia enquanto trabalhava na Organizao Europeia para a Pesquisa Nuclear (CERN). Antes da web, grande parte dos sistemas que funcionavam na internet apresentava uma interface complexa para o usurio comum, como, por exemplo, a interface com linhas de comando, que poderiam exigir conhecimentos de UNIX (LEO, 1999). A web passou a funcionar como uma interface grfica para a internet, que possibilitou a criao, a publicao e a visualizao de documentos digitais hipertextuais e multimdia. Nesses documentos, o jornalismo encontrou um novo espao para a distribuio de sua produo jornalstica tradicional e, mais tarde, um meio para o trabalho de apurao jornalstica (MACHADO, 2002). O sistema da web foi tecnicamente vivel devido unio de trs recursos bsicos: o HTTP44, a URI45 e a HTML46 (CECCONI, 2010). Entre as trs tecnologias, a linguagem de marcao HTML a que determina as possibilidades e as limitaes na apresentao das informaes, pois tem como funo a montagem dos documentos digitais hipertextuais. A linguagem oferece diversos cdigos (conhecidos como elementos, tags ou etiquetas) para a formatao dos documentos publicados na web (conhecidos como pginas), o que permite a criao de contedos ricos em recursos visuais e multimdia. Entre estes cdigos, podemos citar alguns exemplos, como o elemento <b> (de bold, utilizado para aplicar o efeito de negrito a um texto), o elemento <br> (de line brake, utilizado para inserir uma quebra de linha) ou o elemento <a> (de anchor, utilizado para a insero de um link) (W3C, 1999). A funo do software navegador a de interpretar tais cdigos e, a partir disso, gerar e disponibilizar uma pgina digital para o usurio final. Em um caso de publicao de um artigo na web, por exemplo, seria possvel criar um documento digital com o uso de cdigos HTML, em que o ttulo do artigo poderia ser destacado com o efeito negrito (atravs do elemento <b>) e os subsequentes pargrafos poderiam ser delimitados espacialmente no documento com o uso da quebra de linha (atravs
43
A W3C disponibiliza uma pgina com um breve histrico da World Wide Web, em que lista acontecimentos importantes em ordem cronolgica. O desenvolvimento inicial da WWW (das primeiras anotaes at a sua publicao na internet) compreende um processo de vrias etapas entre os anos de 1989 e 1991. Disponvel em: <http://www.w3.org/History.html>. Acesso em: 5 jun 2011. 44 HTTP (HyperText Transfer Protocol) um protocolo de transferncia de dados entre computadores; permite que as mquinas se comuniquem utilizando a mesma lngua. 45 URI (Uniform Resource Identifier) um esquema nico de nomes para localizao de recursos da rede, como os endereos de pginas que comeam com o www. 46 HTML (HyperText Markup Language) a linguagem de marcao utilizada para a montagem de pginas da web. formada por cdigos padronizados (tags) que executam comandos de formatao ao contedo, como negrito e itlico, e que permitirem a insero de hiperlinks e metadados nas pginas.
53 do elemento <br>). Entretanto, sabe-se que o efeito negrito no necessariamente sinnimo de ttulo, pois outros elementos do texto podem receber o negrito (como as legendas das fotos ou nomes dos autores), assim como a quebra de linha no sinnimo de pargrafo, pois outros elementos tambm podem ser delimitados pela quebra de linha (como as imagens e suas respectivas legendas). Em outras palavras, a maior parte dos elementos HTML47 geralmente no traduz o significado dos elementos que fazem parte do texto. Citamos a maioria dos elementos porque existem alguns deles que permitem a associao de significados. Por exemplo, o elemento <h1> (de header) significa ttulo, logo poderia ser utilizado para definir o ttulo no nosso exemplo anterior, no lugar do elemento <b>. Mesmo que o resultado final no seja evidente para a leitura humana (de uma forma ou de outra, o ttulo ficaria visualmente destacado no documento), a vantagem dessa prtica que, neste ltimo caso, as mquinas tambm poderiam compreender que aquele elemento um ttulo e no apenas uma parte do documento destacado com efeito negrito. Entre as inmeras utilidades dessa situao, podemos citar o caso dos sites de busca: se o usurio deseja encontrar pginas da web utilizando determinada palavra-chave, ele poderia escolher entre: a) encontrar resultados que considerassem todo o documento, ou b) encontrar resultados que considerassem a referida palavra-chave apenas nos ttulos. Logo, vantajoso associar aos dados significados que possam ser interpretados pelas mquinas. A HTML tem poucos elementos que indicam o significado do contedo. Citamos o exemplo do elemento <h1> para ttulo, mas no poderamos citar exemplos para elementos que identifiquem legendas de fotos, resumos ou sobrenomes de autores, porque tais elementos no existem. Embora parea simples solucionar esse impasse com a criao de novos elementos semnticos em futuras atualizaes do HTML (como <legenda>, <resumo> ou <sobrenome>), este problema se torna ainda mais complexo se considerarmos que h incontveis possibilidades de associaes semnticas alm da estruturao de um documento, como, por exemplo, o reconhecimento do tipo de entidades48 tratadas no contedo do texto (se uma pessoa, um animal, um lugar, um objeto, uma empresa etc), alm das caractersticas desta entidade (caso seja uma pessoa, como ela ? Quem ela? Caso seja um lugar, onde ele fica? Qual a lngua oficial? etc). Seria invivel criar um elemento HTML para cada um destes itens. Como no h uma forma da HTML associar um significado a cada elemento
Consideramos aqui a HTML 4.01, verso mais atual do cdigo at o presente momento (dez. de 2011). A W3C est em processo de desenvolvimento de uma atualizao da linguagem (HTML5), que dever trazer novos elementos semnticos (LAMMEL, 2010). 48 Nos estudos sobre Web Semntica, utilizado o termo em ingls entity para referenciar as unidades individuais que possuem propriedades e que podem ser relacionadas. Como exemplo de entidade, podemos citar pessoas, lugares e objetos.
47
54 presente em uma pgina, ento a interpretao dos significados destes elementos fica a cargo do usurio final, que l tais pginas e interpreta de acordo com sua capacidade intelectual e seu repertrio cultural. Se, por um lado, o ser humano tem a capacidade de distinguir o significado dos elementos presentes em um documento atravs da livre interpretao do texto publicado, por outro, falta esta faculdade s mquinas (BREITMAN, 2005). Em outras palavras: a web atual uma rede de documentos, e documentos so feitos para serem lidos por humanos e no por mquinas (BERNERS-LEE et al, 2002). Tal situao resulta em certas limitaes ao sistema da web (SILVA FILHO, 2004), principalmente os relacionados s operaes automatizadas e interoperabilidade em um sistema com bilhes49 de documentos feitos para humanos. Para que os computadores tenham a capacidade de processar o significado de tanto contedo, seria mais apropriado termos uma rede de dados estruturados, ao invs de documentos.
2.2 Web Semntica: uma rede de dados No incio da dcada de 2000, a web estava em vertiginosa expanso e j fazia parte da rotina de muitas empresas, instituies e usurios particulares. Ainda assim, Tim Berners-Lee apresentou, em um artigo escrito em 2001 com os autores James Handler e Ora Lassila50, uma proposta de mudana na forma de publicar as informaes na rede. Para ele, a web foi originalmente concebida como uma rede de documentos digitais, mas documentos so feitos para serem lidos por humanos, no por mquinas, e isso gera algumas dificuldades no processamento automatizado de dados e na interoperabilidade dos mesmos. Os autores propuseram repensar a ideia de rede de documentos para o conceito de rede de dados (BERNERS-LEE et al, 2002). A diferena entre as duas concepes que os documentos so escritos em linguagem natural para que sejam lidos por humanos; j os dados podem ser manipulados pelas mquinas (SHADBOLT et al, 2006). Dados podem ser categorizados, classificados, filtrados, enfim, manipulados automaticamente por computadores (BERNERSLEE, 2009). Podem ser inter-relacionados de acordo com critrios lgicos, como tamanho, formato, quantidade, igualdade, semelhana ou diferena.
49
O site http://www.worldwidewebsize.com apresenta estatsticas sobre a quantidade de pginas indexadas nos principais sites de buscas. Em dezembro de 2011, o Google listava aproximadamente 50 bilhes de pginas. 50 O artigo The Semantic Web A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities foi publicado em 2001, na revista American Scientific, por Tim Berners-Lee, James Handler e Ora Lassila. O artigo pode ser encontrado em: <http://www.med.nyu.edu/research/pdf/mainim01-1484312.pdf>. Acesso em: 11 jun 2011.
55 Ao caracterizar a atual web como de documentos, como se estivssemos no incio da dcada de 1990, quando a World Wide Web era, de fato, uma rede de documentos estticos, Tim Berners-Lee parece generalizar um sistema que, atualmente, j se encontra em um estgio muito mais complexo. Hoje, a maior parte da organizao dos dados na web baseada em sistemas de gerenciamento de bancos de dados em detrimento das pginas HTML estticas (KASHYAP et al, 2008). No entanto, quando Berners-Lee descreve uma rede inteligente, em que mquinas tm a capacidade de identificar os significados dos dados, o conceito mais rico do que uma rede de dados ordenados em BDs. Para o autor, mais do que um armazenamento ordenado, a Web Semntica a proposta de um sistema em que os dados so publicados de uma forma padronizada entre os sites, possibilitando a interoperabilidade entre eles. Alm disso, outra diferena da proposta de Web Semntica que os dados publicados no so apenas formatados para a leitura humana: eles tambm so formatados para a interpretao por parte das mquinas, o que possibilitaria aos computadores inferir o significado das informaes publicadas. Este sistema permitiria a execuo de operaes automatizadas na manipulao dos dados na interoperabilidade desses dados entre diferentes sistemas (SHADBOLT et al, 2006). Ento, embora tenhamos hoje uma rede de dados que funciona de forma concomitante rede de documentos (ou seja: BDs com pginas da web), no temos uma padronizao na forma como estes dados devem ser interpretados e compartilhados pelas mquinas, e a est o diferencial na proposta da WS. Da o termo semntica, que, no dicionrio de lngua portuguesa, o estudo do significado da palavra, que explica a origem e as variaes da significao vocabular (BUENO, 1996, p. 598); j para a lingustica, o estudo sistemtico do sentido nas lnguas naturais (PIETROFORTE e LOPES, 2003, p. 114, grifo do autor). Seguindo a linha dos termos lingusticos, a web atual poderia ser comparada sintaxe, pois, nas inter-relaes de dados, os computadores consideram mais as construes sintticas das palavras do que os seus significados (como ocorre no gerenciamento dos bancos de dados ou nos motores de busca). Nas palavras de Breitman, a atual web pode ser denominada sinttica porque nela os computadores fazem apenas a apresentao da informao, porm o processo de interpretao fica a cabo dos seres humanos (2005, p. 2); e a autora ainda se pergunta: a questo : por que os computadores no podem realizar esse trabalho para ns? (idem, p. 2). Poderamos responder a Breitman que os computadores no realizam este trabalho para ns porque eles no compreendem a lngua natural dos humanos. O professor de computao Akerkar endossa esta resposta:
56
[...] humanos conseguem fazer uso de sua intuio para obter sentido dos documentos e process-los adequadamente, mas a ausncia de informaes processveis por mquinas para descrever o contedo um enorme obstculo para se automatizar a gerncia do conhecimento presente na web 51 (AKERKAR, 2009, p. 12).
Embora a WS busque associar significados aos contedos publicados, ela tambm precisa manter o atual sistema de documentos, a fim de continuar proporcionando suporte leitura humana. Por isso, a Web Semntica busca uma forma de publicar contedos que sustentem dois requisitos ao mesmo tempo: um modo compreensvel aos humanos e outro compreensvel s mquinas (KASHYAP et al, 2008, p. 24). Logicamente, relativizamos o termo compreensvel s mquinas, pois essa proposta no busca alcanar uma capacidade cognitiva/racional aos computadores. Para Berners-Lee, [...] na verdade, o computador no compreende qualquer destas informaes, mas agora ele pode manipular os termos muito mais eficientemente, de um modo que sejam teis e significativas para o usurio humano (BERNERS-LEE et al, 2002, p. 27). A manipulao automatizada de dados, em um processo que tambm leva em considerao seus significados, diversifica as potencialidades desse atual sistema informacional que a web. Como exemplo para ilustrao, Berners-Lee (et al, 2002) apresenta um caso hipottico: eu contrato uma empresa de envio de mensagens para enviar congratulaes aos meus clientes em seus respectivos aniversrios. Para isso, informo empresa as datas dos aniversrios e os endereos dos meus clientes, armazenados em uma tabela de minha base de dados. Poderia ocorrer de a respectiva empresa copiar a coluna de endereos da minha tabela para a coluna de endereos da tabela de sua base de dados, para que os seus mensageiros pudessem encontrar tais clientes. Porm, ocorre que o sistema daquela empresa utiliza em sua coluna o termo Endereo para identificar a rua onde residem os clientes; j a minha empresa utiliza o termo Endereo para identificar os locais de cobrana dos clientes, e no propriamente de suas residncias. Como consequncia desse engano, os mensageiros acabariam se direcionando para as caixas postais dos correios e congratulando carteiros, ao invs de se encontrarem com os clientes em suas residncias. Devido impossibilidade do sistema reconhecer automaticamente a diferena de significados entre as duas colunas denominadas Endereo, seria necessrio que ocorresse uma
52
51
Humans can make use their intuition to make sense of the documents and process them accordingly, but the absence of machines processable information to describe the content is a huge hindrance to automating the management of knowledge present in the Web. 52 The computer doesnt truly understand any of this information, but it can now manipulate the terms much more effectively in ways that are useful and meaningful to the human user.
57 interveno humana na manipulao desses dados. Esse caso seria uma realidade para a atual web, pois os contedos apresentados na rede so formatados para serem compreendidos por humanos e no por mquinas. Afinal, as atuais bases de dados so criadas de forma arbitrria, pois cada desenvolvedor escolhe por conta prpria os termos que ele considera mais apropriados para identificar as colunas da BD que funcione em seu site. A situao descrita no exemplo dos mensageiros foi aplicada a um caso bastante especfico que envolve uma empresa; contudo, a mesma ideia poderia ser aplicada a um usurio comum da web que utiliza diversos servios da rede que manipulam seus dados pessoais. Por exemplo, com as tecnologias da Web Semntica em uma situao de funcionamento ideal, o servio de agenda online de um determinado usurio poderia interagir com o servio de compras de passagens online de uma forma tal que, no momento em que o usurio fizesse uma solicitao de compra de passagem, o sistema poderia automaticamente alert-lo que a transao no deveria ocorrer, porque no perodo de viagem solicitado haveria algum compromisso previamente marcado em sua agenda pessoal. Ao mesmo tempo, o sistema poderia sugerir outras datas mais apropriadas, de acordo com as informaes pessoais armazenadas na agenda. No site da W3C h uma pgina especial para a Web Semntica que apresenta outro exemplo hipottico utilizado para auxiliar na compreenso deste conceito:
A Web Semntica uma rede de dados. Existem grandes quantidades de informaes que todos ns utilizamos todos os dias, e que no fazem parte da web. Eu posso ver o extrato do meu banco na web, e tambm as minhas fotografias, e eu posso ver minhas anotaes em um calendrio. Mas eu poderia ver minhas fotos em um calendrio para ver o que eu estava fazendo quando eu as fotografei? Eu poderia ver as linhas do meu extrato bancrio em um calendrio? Por que no? Porque ns no temos uma rede de dados. Porque os dados so controlados por aplicativos, e cada aplicativo mantm tais dados para si 53 (W3C, 2001b, online).
Para que os diferentes aplicativos e servios da web possam integrar suas funcionalidades, preciso que as mquinas possam reconhecer os significados e os tipos de relacionamentos dos dados disponibilizados, atravs do fornecimento de metadados.
53
The Semantic Web is a web of data. There is lots of data we all use every day, and it is not part of the web. I can see my bank statements on the web, and my photographs, and I can see my appointments in a calendar. But can I see my photos in a calendar to see what I was doing when I took them? Can I see bank statement lines in a calendar? Why not? Because we don't have a web of data. Because data is controlled by applications, and each application keeps it to itself.
58 2.2.1 Metadados Se a Web Semntica uma forma de apresentar informaes54 compreensveis tanto para humanos quanto para mquinas, ento, alm da apresentao tradicional de um contedo ao usurio, tambm necessrio fornecer, ao mesmo tempo, dados extras especificamente para as mquinas. Esses dados, que geralmente no so mostrados na pgina formatada em HTML, so denominados metadados e so um requisito para o funcionamento da Web Semntica. O termo metadados significa dados sobre dados. Segundo Manovich, metadado o que permite aos computadores enxergarem e recuperarem dados, mov-los de um lugar a outro, comprimi-los e expandi-los, conectar dados com outros dados, e assim por diante 55 (2002, p. 1). Manovich, ao relatar como os metadados auxiliam na automao do processamento de vdeos digitais pelos computadores, afirma que tal automao requer um novo formato de mdia, que inclua metadados que descrevam a semntica dos dados. Assim, pode-se perceber que os metadados tambm so importantes para que as mquinas interpretem o significado de mdias diversas, inclusive aquelas que no podem ser estruturadas da mesma forma que um texto escrito, como o caso do audiovisual. Em outras palavras, enquanto a web tradicional formada principalmente por informaes compreensveis aos humanos, a WS formada por estas mesmas informaes, porm associadas a metadados interpretveis pelas mquinas que descrevem a elas o que est sendo mostrado ao usurio. A partir deste conceito, Kashyap et al (2008, p. 25) apresenta a seguinte frmula para descrever o tipo de contedo que forma a Web Semntica: Semantic Web Content = Data + Metadata. Para a construo das pginas na atual web, a linguagem HTML oferece alguns elementos de metadados. Por exemplo, com o elemento <meta>, possvel identificar o autor de uma pgina, ou a descrio do documento ou ainda as palavras-chaves relacionadas ao contedo (W3C, 1999). Esses metadados auxiliam os motores de busca a identificarem o contedo das pginas, alm de ajudarem os navegadores em determinadas funes. Entretanto, h poucos destes elementos HTML, por isso so metadados limitados (HEBELER
54
Para o entendimento completo do conceito de metadados, importante esclarecer a acepo dos termos dado e informao. Entendemos que o dado consiste em um fato bruto (nome de um funcionrio, nmero de matrcula de um aluno, cdigo de um produto etc.) ou suas representaes (imagens, sons, nmeros, etc.) que podem ou no ser teis ou pertinentes para um processo particular (AUDY et al, 2005, p. 93). J informao uma coleo de fatos organizados de forma a possuir um valor adicional aos fatos em si. Em outras palavras, so dados concatenados, que passaram por um processo de transformao, cuja forma e contedo so apropriados para um uso especfico (idem, 2005, p. 93). 55 Metadata is what allows computers to see and retrieve data, move it from place to place, compress it and expand it, connect data with other data, and so on.
59 et al, 2009). Na WS, os metadados so mais complexos e diversos e no so associados apenas ao documento inteiro, mas, tambm, aos dados presentes neste documento. Mais do que indicar as partes de um texto (como ttulo, autor etc), na WS os metadados podem identificar os significados das informaes publicadas. Como exemplo hipottico, ao publicarmos a frase: Tobby est com raiva em uma pgina HTML, uma possvel linguagem de marcao semntica poderia permitir uma descrio com a seguinte estrutura: <cachorro>Tobby</cachorro> est com raiva. Desta maneira, ao procurarmos pelo termo Tobby em um site de busca, poderamos, por exemplo, indicar mquina que tal busca deve ser apenas sobre cachorros, evitando, assim, a apresentao de resultados irrelevantes, como pessoas com o apelido Tobby ou personagens de desenho animado com o mesmo nome, entre outros. O mesmo ocorreria para o termo raiva: a palavra se refere ao sentimento ou doena? Enquanto os humanos obtm o significado para o termo a partir do contexto em que a frase se encontra, as mquinas obteriam o significado atravs do processamento dos metadados associados ao termo em questo. 2.2.2 Um modelo padronizado para os metadados: o padro RDF Seguindo o exemplo anterior, embora a estratgia de se utilizar um elemento HTML <cachorro> parea uma proposta funcional para a incorporao de semntica ao contedo em HTML, essa no uma soluo vivel, porque no existem elementos HTML para cada uma das possveis propriedades que um termo pode ter. Na medida em que associamos mais caractersticas a Tobby, mais elementos HTML seriam necessrios, como, por exemplo: <idade>, <raa>, <cor> etc. Porm, a HTML uma linguagem de marcao que, por padro, possui uma quantidade limitada de tags. Essa situao se tornou um problema para os desenvolvedores.
A quantidade de usurios a descobrir e utilizar a Web tem crescido quase que exponencialmente desde incio da dcada de 1990, quando ela comeou a tornar-se popular. Paralelamente ao crescimento de navegadores, tm surgido novas aplicaes, e isso demanda mais e mais recursos da linguagem HTML, que tem sido empregada, popularmente, para a editorao de pginas para a Web. Como resultado, as limitaes da linguagem tm sido evidenciadas, causando frustrao queles que elaboram documentos para Web e motivando a necessidade de extenses (SILVA FILHO, 2004, p. 50).
Uma soluo encontrada pela W3C para resolver a limitao da HTML foi o desenvolvimento de uma nova linguagem de marcao semelhante, mas que permite ao
60 desenvolvedor criar suas prprias tags. Essa linguagem a XML (eXtensible Markup Language), uma linguagem de editorao que oferece um formato universal para a estruturao de documentos e dados na Web (SILVA FILHO, 2004, p. 6). Ao contrrio da HTML, a XML utilizada apenas para se estruturar o contedo, por isso no possui recursos para alterar as caractersticas grficas do mesmo. Logo, com a XML possvel, por exemplo, criar elementos personalizados para contedos (ex.: ttulo, autor, subttulo, pargrafo etc), mas no h a possibilidade de determinar o tipo e o tamanho da letra, a cor de fundo etc. Nem seria preciso, pois para isso existe outra tecnologia: o CSS56. Com a XML, possvel, por exemplo, criar elementos como <titulo>, <autor>, <legenda> e <foto>, aplicando-se desta forma valores semnticos estrutura da pgina. Entretanto, ainda assim, a tcnica de se criar uma etiqueta para cada possvel propriedade seria insustentvel, pois, ao se permitir que os desenvolvedores criem suas etiquetas arbitrariamente, no haveria uma padronizao universal de propriedades e descries. Sem padronizao, alguns desenvolvedores criariam o elemento <cachorro>, outros criariam <cao>, ou <dog>, ou <canino> e assim por diante. Dessa forma, ao buscarmos pelo termo Tobby em um servio de busca, e ao delimitarmos que os resultados devem ser obrigatoriamente relacionados ao conceito de cachorro, o sistema no saberia quais dos elementos HTML citados anteriormente deveriam ser considerados. A proposta da Web Semntica oferece uma soluo com uma lgica diferente para esse impasse. Ao invs de se criar um elemento HTML para cada propriedade na linguagem de marcao, foi proposto um modelo de dados padronizado que permite a associao dos dados presentes na pgina a colees de propriedades externas pgina da web (chamados vocabulrios). A vantagem deste modelo que tais vocabulrios podem ser compartilhados na web para que outros sites tambm os utilizem como referncia na associao de significados. Ainda seguindo o exemplo anterior, em vez de se criar o elemento <cachorro> (ou <cao>, ou <dog> etc.), bastaria associar o termo Tobby ao conceito de cachorro presente em um vocabulrio compartilhado por todos os sites da WS. Este modelo de dados funciona em uma lgica padronizada chamada triplas (triples), pois trabalha sempre com uma estrutura que relaciona trs unidades: um sujeito, um predicado e um objeto (KASHYAP et al, 2008). Cada tripla forma uma frase com um sentido (statement), logo, para se associar significados a um termo, bastaria tomar tal termo como o sujeito da tripla e ento construir uma ou mais frases que o descrevam (ver Figura 6).
56
O Cascading Style Sheets (CSS) uma linguagem simples, sugerida pelo W3C, utilizada para definir os elementos visuais de uma pgina da Web. Com o CSS, possvel, por exemplo, definir o tamanho de uma caixa, a sua posio na pgina e a sua cor de fundo e da borda.
61
Sujeito
Predicado
Objeto
Figura 6 Estrutura da tripla
Como exemplo, vamos considerar um blog da internet que denominaremos aqui como blog X. Para descrevermos qual a autoria do blog, criaramos a frase: o blog X escrito por Joo. Nesse caso, o sujeito seria blog X, o predicado seria escrito por e o objeto seria Joo (ver Figura 7).
blog X
escrito por
Joo
Figura 7 Exemplo de tripla
Em outras palavras, a tripla cria relaes entre entidades, como pessoas, lugares, instituies ou objetos, e o tipo de relao definido pelo predicado, que tambm conhecido pelos termos verbo (BERNERS-LEE et al, 2002) ou propriedade (AKERKAR, 2009). A proposta tecnolgica para a Web Semntica seria bastante limitada caso permitisse que as associaes semnticas fossem expressas apenas em triplas isoladas. Por isso, a lgica das triplas permite que elas sejam associadas entre si, formando, assim, redes de triplas, conhecidas como grafos (graphs). Na Figura 8, possvel observar um exemplo de grafo, formado pela associao de um sujeito a dois objetos, inter-relacionados atravs de predicados diferentes. Neste exemplo, o grafo indica que o blog X tem como autor o Joo e, tambm, indica que o site foi publicado no ano de 2011.
blog X
escrito por
Joo
foi publicado em 2011 Figura 8 Exemplo de um grafo que une duas triplas
62 Sob outro ponto de vista, o grafo da Figura 8 pode ser considerado a unio das duas triplas citadas abaixo: blog X -> escrito por -> Joo blog X -> foi publicado em -> 2011 Segundo Segaran et al (2009), diferentes grafos podem ser combinados ou separados, pois as triplas continuam mantendo os seus significados aps a separao. Na Figura 9, os autores apresentam um exemplo de grafo com maior complexidade, em que possvel identificar as seguintes triplas: So Francisco -> tem o prefeito -> Gavin So Francisco -> tem populao -> 774.000 So Francisco -> est em -> Califrnia Califrnia -> est em -> Estados Unidos So Francisco -> localizado na longitude -> -122.4183 So Francisco -> localizado na latitude -> 37.775
Gavin Newsom
Estados Unidos
em em
Prefeito Populao
744.000
So Francisco
Localizao
Califrnia
Geolocalizao
Longitude Latitude
-122.4183
37.775
Figura 9 Exemplo de grafo mais complexo. Adaptada de Segaran (et al, 2009, p. 30)
Para Tim Berners-Lee (2007), o inter-relacionamento dos grafos presentes na web formaria uma grande rede de grafos, o que seria o modelo ideal de organizao de dados na
63 WS, assim como a web atual tem como modelo os documentos vinculados. Em uma comparao com as trs grandes redes digitais desde a internet at a WS, Berners-Lee associa uma palavra para cada uma das redes: a internet uma rede de computadores, a web uma rede de documentos e a Web Semntica uma rede de grafos. Seguindo essa linha, o autor desenvolve um jogo de siglas para facilitar a identificao de cada rede: a internet seria a III, ou seja, International Information Infrastructure; a web manteria a sigla WWW (World Wide Web) e a Web Semntica poderia ser identificada como GGG, sigla para Giant Global Graph (BERNERS-LEE, 2007). Os agrupamentos de triplas formam repositrios de dados inter-relacionados. So como bases de dados, porm organizados em grafos, e no como tabelas do modelo relacional, amplamente utilizado na web atualmente. Esses repositrios de dados em triplas so denominados de triple store (SHADBOLT et al, 2006). Assim como ocorre nas bases de dados relacionais, possvel realizar buscas dentro dos triple stores, porm, permitido utilizar comandos de busca mais complexos que aqueles normalmente utilizados nos atuais motores de busca da web. Tomamos como exemplo o grafo da Figura 9: um servio ideal de busca semntica possibilitaria a execuo da seguinte pesquisa: Quantas pessoas vivem na cidade em que Gavin Newsom governa?, e o resultado seria gerado de forma automatizada. Em um grafo mais complexo sobre a cidade de So Francisco, as perguntas poderiam ser ainda mais variadas: Qual a temperatura em So Francisco hoje?, Qual foi a temperatura mdia em So Francisco em 1970?, Quem foi o prefeito de So Francisco em 1970?, e assim por diante. Todavia, tais pesquisas ainda poderiam gerar resultados ambguos, afinal, h a probabilidade de existir mais do que uma cidade denominada So Francisco no mundo. Da mesma forma, repetem-se nomes de pessoas, de empresas ou de lugares. Para que a Web Semntica funcione como um sistema com capacidade de gerar inferncias, necessrio que exista um modo de identificar sem ambiguidades as entidades presentes nas triplas. Para materializar a proposta de modelo de dados em triplas sem ambiguidades, a W3C desenvolveu a especificao RDF (Resource Description Framework), que uma linguagem para representar informaes sobre recursos na World Wide Web (W3C, 2004a). Os recursos na web so quaisquer elementos passveis de descrio. Para descrev-los, o RDF emprega o (j mencionado) modelo das triplas: o recurso a ser descrito ocupa o lugar do sujeito, o predicado uma propriedade do recurso, e o objeto o valor atribudo ao predicado. Porm, para que no ocorra ambiguidade, os dados inter-relacionados na tripla do RDF so devidamente identificados com o uso de um identificador nico, denominado URI (Uniform Resource Identifier), que nada mais do que um endereo nico que aponta para determinado
64 recurso. A web atual j utiliza a URI em seu funcionamento bsico, pois, para se acessar uma pgina da web, necessrio inserir no navegador um endereo nico, denominado URL (Uniform Resource Locator), que um tipo de URI (BERNERS-LEE et al, 2002). Em outras palavras, a URI um ndice que pode ser representado de diversas formas (tais como palavras, cdigos ou nmeros), e uma dessas formas a URL, que um endereo nico para um recurso da web (que geralmente inicia com a combinao http://www.). Tomemos novamente como exemplo a tripla que satisfaz a frase o blog X escrito por Joo. O sujeito da tripla (blog X) o recurso a ser descrito e pode ser identificado pelo endereo (URL) do prprio blog, afinal, uma URL um URI, logo, um identificador nico. Da mesma forma, o objeto da tripla (Joo) poderia ser simplesmente um valor escrito (no caso, a palavra Joo) ou poderia ser um outro recurso disponvel na web e identificado com uma URI que apontasse para esse recurso. Desta maneira, o RDF permite criar relaes entre recursos da web (ver Figura 10).
http:// www.blogx.com
http://www.vocabulario.com/Autor
http://exemplo. com/joao
Figura 10 Exemplo de tripla com sujeito, predicado e objeto identificados atravs do uso de URI
Se o blog X identificado pelo URI do prprio blog, e se Joo identificado por uma pgina que o representa na web, como identificar o predicado escrito por? Como encontrar um recurso na web que representaria uma propriedade? Podemos citar exemplos de possveis propriedades, como nome, localizao, ano de surgimento, entre muitos outros. As propriedades que definem as relaes entre sujeito e objeto devem ser padronizadas e compartilhadas na web a fim de se manter um ambiente propcio para o intercmbio de dados e de seus significados. Assim, ao se definir um nmero limitado de possveis propriedades para a tripla, haveria a certeza de que diferentes sites e aplicativos estariam a utilizar as mesmas lgicas no relacionamento entre sujeitos e objetos. Essa padronizao de propriedades ocorre com a publicao das mesmas em vocabulrios disponveis na web e compartilhados entre os sites. J que esses vocabulrios so publicamente disponveis na web, ento uma tripla pode indicar a sua propriedade atravs de uma URI que aponte para um vocabulrio que possua tal propriedade. Por exemplo, se desejamos utilizar a propriedade autor e se essa propriedade
65 est presente no vocabulrio disponvel no endereo fictcio http://www.vocabulario.com, ento a tripla poderia utilizar a URL http://www.vocabulario.com/Autor (ver Figura 10). O vocabulrio fictcio apresentado no exemplo da Figura 10 poderia fornecer outros tipos de propriedades, tais como http://www.vocabulario.com/Endereco ou http://www.vocabulario.com/Data-publicacao. Um exemplo real de vocabulrio disponvel atualmente na web o Dublin Core57, um projeto que publica na web uma lista de 15 categorias aplicveis na organizao de publicaes, tais como ttulo, autor, assunto, descrio, editora, data, formato, lngua, entre outros. O projeto no foi originalmente desenvolvido para a Web Semntica. Ele surgiu ainda em 1995 na forma de uma lista de metadados aplicveis na catalogao de recursos editoriais, como livros em bibliotecas. Entretanto, o projeto se transformou em uma lista padronizada de metadados aplicveis em diferentes tipos de projetos, entre eles a prpria WS. Ento, se um site decide utilizar o padro Dublin Core como vocabulrio de propriedades, o exemplo da Figura 10 utilizaria como predicado o seguinte endereo: http://purl.org/dc/elements/1.1/author (endereo real do projeto Dublin Core para a propriedade autor, em setembro de 2011). Nas bases de dados tradicionais em modelo relacional, possvel consultar os dados armazenados com o uso da linguagem SQL (Structured Query Language), utilizada para a execuo de determinadas operaes de consulta e escrita de dados, tais como seleo (SELECT), adio (INSERT), excluso (DELETE) e alterao (UPDATE). Se as triplas em RDF formam bases de dados em estrutura de grafo, ento deve haver uma forma de consultar estes dados. E, de fato, possvel realizar buscas dentro dos triple stores em RDF com o uso da linguagem SPARQL (Simple Protocol and RDF Query Language), que oferece uma gama de possveis operaes nos grafos, como a seleo, o filtro e a comparao de dados, entre outras (SEGARAN et al, 2009). Entretanto, ao contrrio do SQL, o SPARQL apenas oferece opes de consulta aos dados (leitura), enquanto o SQL tambm permite opes que modificam os dados nas bases de dados relacionais (escrita). Embora parea uma limitao, tal situao pode ser vantajosa para a Web Semntica, pois permite aos sites que disponibilizem publicamente na web suas bases de dados em grafos e os abram para consulta realizada por terceiros, sem o receio de que um agente externo modifique os dados ali armazenados (SEGARAN et al, 2009). Desta forma, os grafos da Web Semntica tm o potencial de formar uma grande base de dados em comum, pois o SPARQL permite a seleo e comparao de dados armazenados em grafos diferentes.
57
Disponvel em: <http://dublincore.org/>. Acesso em: 17 set 2011.
66 Um exemplo de associao de triplas em RDF o site Data.gov, lanado pelo governo dos EUA. No site, so publicadas grandes colees de dados sobre diversas reas da administrao pblica daquele pas, tais como sade, educao e gastos militares. Grande parte destes dados foi convertida para um formato compatvel com o padro RDF e, por isso, h dados estruturados na lgica das triplas (sujeito, predicado e objeto). Segundo o prprio site, a soma dos arquivos em RDF j contava 6,4 bilhes de triplas disponveis para download em setembro de 201158. As colees de dados em RDF podem ser acessadas por qualquer usurio ou site da web (ver Figura 11).
Figura 11 Lista de colees de dados em RDF disponveis para download no site Data.gov59
As colees de RDF deste site no so apresentadas em uma formatao amigvel para a leitura do usurio comum da web, pois esto disponveis em grandes blocos de cdigo, no formatados, ainda crus, que misturam contedo com marcaes XML60
58 59
Informao disponvel em: <http://www.data.gov/semantic>. Acesso em: 18 set 2011. Disponvel em: <http://www.data.gov/semantic/data/alpha>. Acesso em: 07 out 2011. 60 O RDF est representado na linguagem XML, porque o RDF no uma linguagem com sintaxe prpria, ele um modelo de dados, que pode ser representado em diferentes formatos. Essa representao do modelo em um formato escrito chamada de serializao. Entre vrios tipos de serializaes, podemos citar: a N-Triples, a N3, a RDF/XML (apresentada na Figura 12) e a RDFa, utilizada dentro do cdigo HTML (SEGARAN et al, 2009; W3C, 2004a). Logo, possvel escrever dados no modelo RDF com a linguagem XML.
67 (como possvel observar na Figura 12). So dados disponveis para serem lapidados por outros aplicativos.
Figura 12 Visualizao parcial de uma das colees de dados em RDF/XML disponveis para download no site Data.gov
O prprio site Data.gov incentiva programadores a desenvolverem aplicativos que utilizem as colees de dados estruturados em triplas e os convertam em informaes adaptadas para a leitura dos usurios na web. O site disponibiliza uma pgina em que so apresentados aplicativos (sites da web) desenvolvidos por terceiros e que se utilizam de tais dados para oferecer informaes especficas. Muitos desses aplicativos so mashups61 que misturam os dados do Data.gov com outras fontes de dados disponveis na web, ou que os aplicam em mapas interativos, como o Google Maps. Em 2009, o Data.gov lanou uma competio para incentivar o desenvolvimento de aplicativos que utilizassem o contedo do site62 de maneira criativa, e um dos trs vencedores
61
Na computao, mashups so aplicativos que combinam dados ou servios oriundos de diversas fontes para criar um novo produto ou servio. 62 Competio Apps for America 2. Disponvel em: <http://sunlightfoundation.com/blog/2009/09/10/apps-foramerica-2-winners/>. Acesso em: 18 set 2011.
68 foi o site This We Know63, que utiliza os dados estruturados do Data.gov para apresentar estatsticas sobre diferentes reas da administrao pblica dos EUA, tudo de forma automatizada. Na pgina inicial do site (ver Figura 13), so apresentados alguns rankings de cidades norte-americanas em relao a determinados temas, como, por exemplo, a lista das cinco cidades com maior quantidade de toxinas no meio ambiente ou as cinco cidades com menores ndices de desemprego. Na Figura 13, mostrada a pgina inicial do site, em que destacamos com um crculo a lista das cinco cidades com maior incidncia de cncer (e que indica Los Angeles como a cidade que apresenta o maior ndice).
Figura 13 Pgina inicial do site This We Know, em que so apresentadas listas com rankings entre cidades norte-americanas64
63 64
Disponvel em: <http://thisweknow.org/>. Acesso em: 13 dez. 2011. Disponvel em: <http://thisweknow.org/>. Acesso em: 13 dez. 2011.
69 Alm dos rankings de cidades, organizados por assuntos ou temas, o site tambm constri e apresenta, de forma automatizada, pginas com dados estruturados para cada uma das cidades, mostrando estatsticas de interesse pblico. Na Figura 14, possvel observar o resultado para a busca na cidade de Bridgeport (estado de Connecticut). Nestes resultados, so apresentados dados como a quantidade de fbricas (H 15 fbricas, na 1 linha, marcada com a letra A), de crimes violentos (1603 crimes violentos ocorreram ou 11,6 por pessoa, na 4 linha, marcada com a letra B), de desempregados (36369 pessoas desempregadas, enquanto 443028 possuem empregos, na 6 linha, marcada com a letra C), entre outras informaes de interesse pblico:
Figura 14 Pgina do site This We Know, que apresenta nmeros sobre uma cidade dos EUA, como o nmero de fbricas (A), de crimes violentos (B) e de empregados x desempregados (C)65
Os bancos de dados relacionais, largamente utilizados pelos atuais sites dinmicos, tambm oferecem a funcionalidade de armazenamento e cruzamento de dados. Porm, os desenvolvedores do site This We Know justificam o uso das tecnologias padronizadas da Web Semntica neste projeto:
65
Disponvel em: <http://thisweknow.org/>. Acesso em: 13 dez. 2011.
70
Uma vantagem em armazenar as informaes do data.gov usando RDF que a base de dados e os aplicativos podem prontamente se expandir na medida em que novas fontes de dados so adicionadas ao catlogo, sem requerer nova digitao de cdigo ou revises do cdigo existente. Em uma base de dados relacional, as conexes entre as informaes teriam de ser feitas com antecedncia, revises seriam necessrias assim que novas bases de dados fossem carregadas, e o modelo final de dados se tornaria extremamente largo e pesado se milhares de bases de dados tivessem que ser modelados como uma nica base de dados 66 (THIS WE KNOW, online).
Apresentamos, at aqui, alguns conceitos-chaves para o entendimento do que a proposta da WS e das condies que a tornam vivel: a necessidade dos metadados para as mquinas, o modelo de metadados em triplas (RDF) e a identificao de recursos com o uso de identificadores nicos (URI). H projetos da Web Semntica que utilizam basicamente estas tecnologias, e que j apresentam resultados ricos, como no caso do site This We Know. Entretanto, alm destes conceitos, o ideal de Web Semntica proposto por Tim Berners-Lee ainda prope um recurso mais complexo que, alm de relacionar dados a significados, permite s mquinas identificarem regras de relacionamento entre esses dados publicados na web. A identificao dos tipos de relacionamentos permite s mquinas realizarem inferncias sobre tais dados. Na concepo de Berners-Lee et al (2002), as regras de relacionamento entre entidades devem ser formalizadas atravs de um recurso denominado ontologia. 2.2.3 Ontologias Antes da ideia de WS, j era possvel realizar o inter-relacionamento de dados a metadados atravs de outras tecnologias, como a dos bancos de dados relacionais. A proposta da Web Semntica apresenta um recurso ainda mais complexo utilizado para explicitar os relacionamentos desses dados a determinados significados, o que possibilita, teoricamente, que esse sistema gere inferncias sobre determinadas situaes. Ao considerarmos a frase exemplo todos os humanos so mamferos, conclui-se que para seguir a lgica da Web Semntica, necessrio informar mquina o significado do termo humanos e do termo mamferos. Embora os metadados possam indicar mquina o significado dos dois termos, como seria possvel indicar os tipos de relacionamentos possveis entre eles? Se todos os humanos so mamferos, ento seria correto fazer a relao inversa e afirmar que todos os mamferos so humanos?
66
An advantage of storing the data.gov information using RDF is that the database and applications can readily expand as new data sources are added to the catalog, without requiring new coding or revisions to existing coding. In a relational database, the connections between information will need to be made in advance, revisions will be necessary as new databases are loaded, and the data model will become extremely large and unwieldy if thousands of databases were to be modeled in a single database.
71 Para os humanos, a identificao de significados e de suas inter-relaes parte das suas experincias com a realidade; ou seja, a partir do conhecimento adquirido. Pode-se citar como exemplo o fato de um ser humano compreender que na relao pai-filho o pai sempre ser o mais velho, pois, segundo o seu conhecimento adquirido, na relao entre pais e filhos, a regra ser sempre que o primeiro o mais velho. Ento, o sistema da Web Semntica tambm deveria ter como base para essas inferncias algum tipo de relao com a realidade e com o conhecimento. E, na concepo da WS proposta por Tim Berners-Lee, esse processo de fato ocorre atravs da associao das informaes a vocabulrios padronizados e compartilhados na web. Esses vocabulrios so arquivos, interpretveis pelas mquinas, que descrevem os termos empregados em um domnio especfico do conhecimento. Quando os vocabulrios compartilhados apresentam regras formais de relacionamentos entre tais termos (atravs de classes, subclasses, funes etc), so chamados de ontologias. Por exemplo, uma ontologia especificamente para o domnio farmacutico poderia descrever formalmente as regras de relacionamento que existem nas interaes entre os frmacos e suas substncias ativas. Por essa razo, as ontologias podem ser consideradas representaes abstratas do conhecimento, geralmente desenvolvidas para determinados domnios do conhecimento humano. O termo ontologia vem da filosofia grega e, segundo Berners-Lee et al, significa a teoria sobre a natureza da existncia, sobre que tipos de coisas existem (2002, p. 27). Ainda segundo o autor, os pesquisadores da inteligncia artificial e da web adaptaram o termo da filosofia e o tomaram como um jargo para fazerem referncia ao documento ou arquivo que define formalmente as relaes entre os termos. O tipo de ontologia mais representativo para a web possui uma taxonomia e uma coleo de regras de inferncia 67 (2002, p. 27). As taxonomias definem as classes dos objetos e as relaes hierrquicas entre essas classes, para, assim, permitirem a gerao de inferncias lgicas e consistentes. Ontologias no surgiram com a Web Semntica. Antes do surgimento da web, elas j eram estudadas e aplicadas na rea de inteligncia artificial. Ainda em 1992, Thomas Gruber, pesquisador da rea, apresentou um conceito de ontologia bastante citado por autores que pesquisam a Web Semntica (KASHYAP et al, 2008; AKERKAR, 2009; KASHYAP et al, 2008, BREITMAN, 2005): para ele, trata-se de uma especificao explcita de uma conceituao (GRUBER, 1993, p. 2). Para facilitar o entendimento do conceito, necessrio compreender o que conceituao, que para Gruber uma viso abstrata e simplificada do
67
Articial-intelligence and Web researchers have co-opted the term for their own jargon, and for them an ontology is a document or le that formally denes the relations among terms. The most typical kind of ontology for the Web has a taxonomy and a set of inference rules.
72 mundo que queremos representar por alguma razo (1993, p. 2). Essa viso do mundo formada por objetos, conceitos e outras entidades que presumidamente existem em alguma rea de interesse, alm dos relacionamentos que existem entre eles. Essa coleo de objetos e de seus relacionamentos formalizada em um vocabulrio utilizado para representar o conhecimento humano; porm, especificamente na rea em que esses objetos fazem parte. Como ilustrao, podemos citar uma ontologia para uma sala de aula: ela especifica os principais tipos de elementos existentes no domnio (alunos, professores, carteiras, cadeiras etc), especifica as propriedades desses elementos a partir de classe e subclasses (como em uma taxonomia que classifica os seres vivos) e determina as regras de relacionamento entre esses elementos, permitindo a gerao de inferncias (ex.: uma sala pode conter alunos, mas no ocorre o inverso). Para Gruber (1993), muito dispendioso de se construir, testar e manter os sistemas e servios baseados em conhecimento humano, e por isso que as ontologias so necessrias, porque so representaes complexas que, depois de produzidas, podem ser compartilhadas e reutilizadas pelos software aplicativos e sistemas inteligentes. Entende-se, ento, que as ontologias funcionam como vocabulrios precisos, que expressam regras formais de relacionamentos para inferncias (SEGARAN et al, 2009), que podem ser utilizados para diversas aplicaes em que h vantagens em associar entidades a significados. Nas palavras de Berners-Lee:
Ontologias podem enriquecer o funcionamento da web de vrias maneiras. Elas podem ser utilizadas como uma simples forma de aprimoramento na preciso de ferramentas de busca da web o programa de busca pode procurar somente por pginas que se referem precisamente a um conceito especfico ao invs de todas as outras pginas que estejam utilizando palavras-chaves ambguas. Aplicativos mais avanados iro utilizar ontologias para relacionar a informao de uma pgina s estruturas de conhecimentos associadas e s regras de inferncia 68 (2002, pg. 28).
Nas triplas em RDF, fazemos referncias a termos (como So Paulo e Brasil) e s relaes entre tais termos (como faz parte de, pertence a, autor de, igual a). J a ontologia faz uma classificao desses termos e de seus relacionamentos como se fossem regras para um processo de inferncia. A Web Semntica no prope uma ontologia nica e geral para todo o sistema, mas diferentes ontologias para diferentes domnios, e os termos descritos pela ontologia devem ser de comum aceitao dentro da comunidade que faz parte do domnio (AKERKAR, 2009).
68
Ontologies can enhance the functioning of the Web in many ways. They can be used in a simple fashion to improve the accuracy of Web searches the search program can look for only those pages that refer to a precise concept instead of all the ones using ambiguous keywords. More advanced applications will use ontologies to relate the information on a page to the associated knowledge structures and inference rules.
73 A ideia de uma lista de itens categorizados com suas definies pode trazer a imediata lembrana de uma taxonomia69 ou de um tesauro70; porm, embora semelhantes, as ontologias so propostas mais completas, pois definem regras complexas de relacionamento entre os itens categorizados, tais como ambiguidades, semelhanas etc. Ainda assim, embora as taxonomias e os tesauros no apaream nas listas de principais tecnologias da Web Semntica, eles ainda pertencem ao cenrio da WS (AKERKAR, 2009). Tanto que, para Berners-Lee (et al), o tipo de ontologia mais representativo para a web possui uma taxonomia e uma coleo de regras de inferncia 71 (2002, p. 27). 2.2.4 Uma linguagem para construo de ontologias: o padro OWL De acordo com Breitman (2005), existem diferentes linguagens que possibilitam o desenvolvimento de ontologias aplicadas Web Semntica, tais como a Ontology Inference Layer (OIL), desenvolvida por um consrcio da Comunidade Europeia; a DARPA Agent Markup Language (DAML), desenvolvida pela agncia norte-americana DARPA (Defense Advanced Research Projects Agency); ou ainda o prprio RDF72, pois como ele um modelo de dados (modelo em triplas) que pode ser utilizado para modelar regras, ento pode relacionar termos a predicados e conceitos (ex.: X / pode fazer parte de / Y). Em certo momento, os desenvolvedores europeus da OIL e norte-americanos da DAML uniram esforos para formular uma linguagem em comum para ontologias (DAML+OIL), integrando nesta mesma linguagem as funcionalidades de cada uma, tais como elementos de classe, expresso de classes e propriedades (BREITMAN, 2005). Em busca de uma linguagem para ontologias aplicadas web, a W3C realizou uma reviso da linguagem DAML+OIL e desenvolveu a OWL (Web Ontology Language), uma linguagem de marcao semntica utilizada para recursos da web que possui classes, subclasses, propriedades, subpropriedades e restries de propriedades (Akerkar, 2009).
69
Taxonomia um vocabulrio controlado hierarquicamente organizado. O mundo tem muitas taxonomias, porque o ser humano naturalmente classifica as coisas. Taxonomias so semanticamente fracas e so normalmente usadas quando se navega sem se preocupar em se ter uma preciso na pesquisa (AKERKAR, 2009, p. 76, traduo nossa). 70 Tesauro um vocabulrio controlado e arranjado em uma ordem e uma estrutura j conhecidas, que as equivalncias e as relaes homogrficas, hierrquicas e associativas entre os termos so apresentadas claramente e identificadas por indicadores de relacionamento padronizados (AKERKAR, 2009, p. 76, traduo nossa). 71 The most typical kind of ontology for the Web has a taxonomy and a set of inference rules. 72 A W3C desenvolveu um modelo de dados que facilita a descrio de vocabulrios com o RDF. A esse modelo, denominado RDF Schema. uma extenso ao RDF, pois alm do modelo sujeito propriedade objeto, tambm inclui a funcionalidade de descrio mais detalhada sobre a propriedade (W3C, 2004b), recurso esse necessrio para se criar vocabulrios mais complexos.
74 Nas definies da W3C (2004c), a OWL um modelo baseado em RDF e RDFS, e possui quatro elementos bsicos: classes, propriedades, instncias de classes e relacionamentos. Abaixo, apresentamos uma breve descrio para cada elemento: Classes: so grupos que abrigam unidades individuais que compartilham das mesmas caractersticas. Instncias de classes: so as unidades individuais que fazem parte das classes. Propriedades: so atributos aplicados a toda a classe ou apenas s instncias de classes. Relacionamentos: so as regras formais que se aplicam no relacionamento entre as instncias. Para ilustrao, podemos citar o seguinte exemplo: se definirmos que mamferos uma classe, podemos considerar que leo uma instncia desta classe. Podemos considerar que a classe mamferos tem como propriedade em comum a presena da mama. Logo, todas as instncias que pertencem classe devem herdar tal propriedade. Poderamos, tambm, definir como propriedade tem juba, porm aplicaramos apenas instncia leo, pois nem sempre os animais mamferos tm esta caracterstica. Segundo Kashyap et al., as ontologias em OWL conseguem representar restries e axiomas e, a partir deles, as mquinas teriam a capacidade de inferir relacionamentos equivalentes entre dois conceitos alm de mutuais contradies entre conceitos, se eles existirem (2009, p. 32). Como exemplo de regras semnticas da OWL, citamos as seguintes lgicas:
Filiao a uma classe. Se x uma instncia da classe C, e C uma subclasse de D, ento ns podemos inferir que x uma instncia de D. Equivalncia de classes. Se a classe A equivalente classe B, e a classe B equivalente classe C, ento A equivalente a C, tambm. Consistncia. Suponha que ns declaremos x como uma instncia da classe A e que A a subclasse de B C, A uma subclasse de D, e B e D so disjuntos. Ento ns temos uma inconsistncia porque A deveria ser vazio, mas tem a mesma instncia de X. Essa uma indicao de um erro na ontologia. Classificao. Se ns temos declarado que certos pares de propriedade-valor so uma condio suficiente para a filiao em uma classe A, ento se um indivduo x satisfaz tal condio, ns podemos concluir que aquele x precisa ser uma instncia de A (ANTONIOU et al., 2004, p. 110, traduo nossa).
O desenvolvimento de ontologias pode ser, muitas vezes, um trabalho rduo, pois alm de exigir do desenvolvedor o conhecimento tcnico da linguagem OWL, ainda h a tarefa de modelar a representao de uma rea do conhecimento, que geralmente formada por uma grande variedade de objetos e de seus relacionamentos. Para facilitar o trabalho na
75 modelagem de ontologias, um grupo de pesquisadores da Universidade de Stanford disponibiliza na web um editor gratuito de ontologias chamado Protg73, que permite a criao e tambm a visualizao da ontologia em diferentes representaes visuais, como listas ou mapas mentais. Na Figura 15, mostrada uma tela do software Protg com uma ontologia em OWL que pesquisadores da rea da sade desenvolveram para auxiliar mdicos e seus pacientes portadores de diabetes a controlarem o consumo de alimentos, baseados em uma dieta apropriada para diabticos. Para isso, foram descritos diversos alimentos e suas propriedades, como tipos e quantidades de nutrientes. A ontologia determinou certas regras de relacionamento entre estes nutrientes e as recomendaes mdicas (CANTAIS et al, 2005). Na Figura 15, o software Protg apresenta parte da ontologia: na caixa demarcada com a letra A, so listadas as classes, subclasses e suas relaes (neste caso, alguns tipos de alimentos, tais como frutas, carne e vegetais); na caixa demarcada com a letra B, so listadas algumas possveis propriedades da classe, como tem lcool (hasAlcohol) e tem gordura animal (hasAnimalFat); e na caixa C, as regras para a classe (tais como restries, condies etc), que a mquina utiliza para executar inferncias.
Figura 15 Tela do software Protg que mostra parte de uma ontologia em OWL (CANTAIS et al., 2005)
Atualmente, os projetos inseridos no mbito da Web Semntica que utilizam recursos como triplas em RDF no necessariamente utilizam as ontologias devido complexidade do
73
http://protege.stanford.edu/
76 desenvolvimento deste recurso. Ainda assim possvel realizar inferncias em um grafo sem o uso de ontologias, pois as regras de inferncias podem estar implcitas nos comandos de pesquisa (queries) realizadas na recuperao dos dados do grafo (SEGARAN, 2009). Por exemplo, em um grafo que relaciona filmes e atores atravs de triplas, seria possvel realizar a seguinte pesquisa: listar os filmes em que o ator Jack Nicholson atuou no perodo entre 1980 e 1990. O resultado ser uma resposta lgica, devido s regras impostas no comando de pesquisa. Entretanto, ao se compartilhar os dados deste grafo com outros aplicativos, tais aplicativos no teriam como identificar as regras de relacionamento entre as entidades presentes no grafo. Por isso, as ontologias so fundamentais para a viso de uma Web Semntica plena, visto que no haveria como diferentes aplicativos processarem inferncias com uma mesma lgica se no houvesse um vocabulrio de termos e de regras em comum entre eles. Por essa razo que as ontologias devem ser formalizadas, explcitas e compartilhadas, pois dessa maneira podero ser utilizadas por diferentes mquinas (sites, servios, agentes, entre outros) de modo que seja minimizada a ocorrncia de ambiguidades. Para Akerkar (2009, p. 74), metadados e ontologias so complementares e constituem os blocos de construo da Web Semntica. Eles evitam ambiguidades nos significados e proveem respostas mais precisas 74. No entanto, como o desenvolvimento de uma ontologia um trabalho complexo, grande parte dos produtos experimentais da Web Semntica ainda no utiliza o recurso para seu funcionamento e, como consequncia, oferece s mquinas menor capacidade de gerao de inferncias.
2.2.5 As mquinas tomam a iniciativa: os agentes inteligentes
Por fim, para que a Web Semntica seja possvel na viso de Berners-Lee, alm da estruturao de dados, das ontologias e dos metadados, outro recurso importante para esse sistema o conceito de agentes. Berners-Lee (et al, 2002) afirma que a Web Semntica s ser possvel quando as pessoas (desenvolvedores da web) criarem programas que, de forma autnoma, coletem contedos de diversas fontes da web, processem tais informaes e ento troquem os resultados com outros programas (ou seja, outro agentes). Os agentes no seriam exatamente essas pessoas, mas esses programas criados por elas, automatizados e autnomos, como no caso j citado neste trabalho de uma agenda online
74
Metadata and ontologies are complementary and constitute the Semantic Webs building blocks. They avoid meaning ambiguities and provide more precise answers.
77 que se comunica com um site de compras de passagens areas. Para Berners-Lee, os agentes seriam os impulsionadores da Web Semntica. Eles tambm seriam responsveis por averiguar a confiabilidade da fonte dos contedos, pois informaes erradas trariam prejuzos s associaes de dados. 2.2.6 Extrao de conceitos em contedos no estruturados Com a combinao das tecnologias semnticas at aqui apresentadas, como o RDF e as ontologias, possvel desenvolver aplicaes que trabalham de modo automatizado com os dados publicados na web. Porm, para que isso seja possvel, necessrio indicar s mquinas quais so os significados destes dados, atravs de metadados que os descrevam. Em um contedo estruturado, como em um texto fragmentado e ordenado em uma planilha, a associao de metadados s partes do texto facilitada. Por exemplo: nessa situao, possvel indicar mquina que uma determinada coluna da planilha deve ser associada a alguns metadados especficos, que, por sua vez, podem indicar s mquinas alguns significados para os contedos que fazem parte daquela coluna. No jornalismo, a situao bastante diferente. Geralmente, a produo jornalstica resulta em narrativas no estruturadas, escritas exclusivamente em linguagem natural, ou seja, no preparadas para a compreenso por parte das mquinas. Sem essa capacidade de interpretao, os computadores no tm como identificar os conceitos presentes nas narrativas. De nada valeria um sistema semntico capaz de gerenciar automaticamente a organizao de contedos a partir de seus conceitos se no h uma maneira de identificar quais conceitos esto presentes no contedo em questo. Por isso, preciso associar a estas narrativas os metadados que descrevam os conceitos ali presentes, pois so com estes metadados que as mquinas identificam significados. Atualmente, existem tcnicas para a extrao dos conceitos presentes em contedos no estruturados. A seguir, apresentamos duas delas: a tcnica de tagging e a de extrao automtica de conceitos via software. 2.2.6.1 Tcnica de tagging Segundo Bertocchi (2009), uma maneira de se atribuir metadados a uma produo jornalstica pela tcnica de tagging, que, do ingls, podemos traduzir como etiquetagem. A tcnica nada mais do que a associao de palavras-chaves (tags) a um contedo, para sugerir significados ou conceitos relacionados. Estas palavras-chaves podem ser atribudas
78 pelo prprio autor da informao (como o jornalista) ou pelos usurios do site em que tal informao esteja publicada. A autora apresenta trs tipos de tagging: 1) folksonomia, quando os usurios podem criar tags livremente, sem a necessidade de uma regra rgida, oferecendo maior liberdade, porm com o risco de se gerar indefinies lingusticas, como polissemias, diversidade de sinonmias e homonmias etc; 2) taxonomia, quando a classificao realizada com tags hierrquicas e j previamente existentes em um vocabulrio definido por uma equipe; e 3) folksonomia controlada, uma forma hbrida entre as duas anteriores, pois funciona a partir de uma taxonomia pr-definida, mas tambm permite contribuies de usurios. Segundo Bertocchi, este terceiro modo de tagging seria o mais indicado para o jornalismo digital, j que possibilita a utilizao e a integrao de um repertrio definido por um corpo editorial (jornalistas) e, tambm, de um repertrio sugerido pelos leitores, e assim:
[...] as livres associaes de termos criadas pelos usurios refletiro a linguagem comum da coletividade ao mesmo tempo em que o vocabulrio controlado da redao jornalstica evidenciar suas predilees editoriais, conforme estratgia comunicativa previamente identificada (BERTOCCHI, 2009, p. 17).
Por ser um processo manual, a tcnica de tagging exige certa dedicao de tempo do jornalista no processo de anotao do contedo. A seguir, descrevemos uma tcnica automatizada de extrao de conceitos. 2.2.6.2 Software de anlise automtica Existem software aplicativos especializados em analisar contedos no estruturados para extrair conceitos do mesmo de forma automatizada. Para ilustrar esta tcnica, podemos citar o site Calais75, servio lanado pela Thomson Reuters (mesma organizao detentora da agncia de notcias Reuters) que oferece ao usurio o servio de anlise e extrao automtica de significados presentes em textos escritos. Ao se submeter um texto para o site, ele realiza uma leitura automtica e ento o servio identifica determinadas palavras-chaves includas no contedo e as compara com uma ontologia, conseguindo, assim, retornar ao usurio a
75
Disponvel em: <http://www.opencalais.com/>. Acesso em: 29 set. 2011.
79 identificao de diversas entidades presentes no site, como pessoas, lugares, organizaes, eventos, livros etc., alm de links para locais do ciberespao que contenham descries sobre tais entidades. O servio no apenas identifica termos e conceitos, como tambm retorna metadados para cada entidade identificada, que podem ser utilizados na associao com outros dados da web. Segundo descrio do prprio site,
O metadado oferece a voc a possibilidade de construir mapas (ou grficos ou redes) conectando documentos a pessoas a companhias a lugares a produtos a eventos a geografias a... qualquer coisa. Voc pode usar estes mapas para aprimorar a navegao do seu site, prover distribuies contextualizadas, etiquetar e organizar seu contedo, criar folksonomias estruturadas, filtrar e reduplicar feeds de notcias, ou analisar um contedo para observar se ele contm o que voc procura 76 (OPEN CALAIS, online)77.
Ainda na descrio do produto, o site apresenta um grfico que simplifica como o processo de extrao ocorre. Apresentamos a imagem na Figura 16, traduzida por ns.
Figura 16 Processo de extrao de conceitos no servio Calais78
The metadata gives you the ability to build maps (or graphs or networks) linking documents to people to companies to places to products to events to geographies to whatever. You can use those maps to improve site navigation, provide contextual syndication, tag and organize your content, create structured folksonomies, filter and de-duplicate news feeds, or analyze content to see if it contains what you care about. 77 Disponvel em: <http://www.opencalais.com/about>. Acesso em: 29 set. 2011. Traduo nossa. 78 Disponvel em: <http://www.opencalais.com/about>. Acesso em: 29 set. 2011. Traduo nossa.
76
80 Para ilustrao, citamos um caso hipottico: uma ferramenta semntica que utiliza o servio do site Calais poderia, por exemplo, realizar uma anlise automtica de uma notcia e apresentar no resultado da anlise um resumo sobre as principais informaes do lide, como a) quem est envolvido no fato, b) onde ocorreu o fato, c) quando ocorreu o fato etc; e ainda relacionar tais resultados com outras informaes presentes na web, como a) outras notcias envolvendo os atores deste fato, b) informaes extras sobre o local onde ocorreu o fato, c) lista de notcias que ocorreram no mesmo perodo deste fato etc. At o momento, apresentamos os principais conceitos sobre Web Semntica, de acordo com a viso de Berners-Lee et al (2002): metadados, triplas no modelo RDF, definio de conceitos e relaes com ontologias, agentes inteligentes que trocam dados entre si. A seguir, apresentamos um movimento, tambm liderado por Tim Berners-Lee, que tem como objetivo criar uma rede de sites e servios na web que utilizam de forma padronizada as tecnologias semnticas recomendadas pela W3C, e que, mais do que isso, tm como mote a prtica da abertura e compartilhamento de seus dados.
2.3 Linked Data Para que a WS cresa e se consolide, necessrio que surjam na web repositrios de grafos interligados, pois assim se cria um ambiente propcio para a interoperabilidade de dados e de seus significados. Ou seja: sem dados estruturados de forma padronizada, no h uma rede semntica de dados. Porm, uma barreira para esse crescimento so os repositrios no padronizados e os repositrios fechados, que no permitem o acesso de sites e servios externos a seus dados. Alm de existirem maneiras diferentes de se publicar dados estruturados, tambm ocorrem prticas no recomendadas (ou mal executadas) na construo destes repositrios, que podem prejudicar a manuteno dos padres. Preocupado com a sustentabilidade do projeto da WS, Berners-Lee (2006) props uma srie de processos padres na publicao de dados estruturados em triplas. A essa prtica, ele denominou Linked Data. Segundo Bizer et al. (2009), essas prticas padronizadas se referem basicamente a dados que: 1) sejam publicados na web de tal forma que possam ser lidos pelas mquinas, 2) seus significados sejam explicitamente definidos, 3) sejam lincados a outros repositrios externos de dados, e 4) permitam aos repositrios externos que se conectem a eles. Para que isso seja possvel, os sites devem seguir quatro princpios bsicos:
1. Use URIs como nome para as coisas. 2. Use HTTP URIs e ento as pessoas podero procurar por aqueles nomes.
81
3. Quando algum procurar por uma URI, oferea informaes teis, utilizando os padres (RDF, SPARQL). 4. Inclua links para outras URIs, para que ento os usurios possam descobrir mais coisas 79 (BERNERS-LEE, 2006, online).
Em outras palavras, o Linked Data uma recomendao de boas prticas, em que os projetos envolvidos publicam seus dados dentro dos padres da W3C e buscam vincular seus dados a repositrios externos que tambm seguem estas mesas prticas padronizadas. Assim, cria-se uma grande rede de grafos interligados, em que qualquer um dos projetos envolvidos pode utilizar livremente80 os dados dos outros repositrios, formando uma espcie de banco de dados mantido por diversas fontes (BIZER et al., 2009). Em uma viso otimista de crescimento do Linked Data, esse sistema tende a se tornar o j citado Giant Global Graph (GGG), a verso semntica da rede World Wide Web (WWW). No decorrer dos anos, surgiram diversos projetos com a preocupao de publicar seus dados e metadados em conformidade com esses padres e, ainda, visando abertura destes dados para outros sites. Por isso, o termo tambm conhecido como Linked Open Data, ou seja, dados abertos e lincados. Desta maneira, a web se auto-organiza para o desenvolvimento de um ambiente propcio ao compartilhamento (e reuso) de dados. Atualmente, possvel encontrar na web diferentes projetos em desenvolvimento que buscam estruturar grandes quantidades de dados j existentes na rede para a lgica da Linked Data. Alguns projetos focam seus repositrios para determinados domnios (ex.: apenas para a sade ou para contedos relacionados msica); porm, dois grandes projetos se destacam por terem j estruturadas grandes quantidades de dados de mltiplos domnios: o Freebase81 e o DBpedia82. Ambos fazem uma reestruturao dos dados publicados na Wikipdia e os publicam em formatos compatveis com o RDF. Embora semelhantes, os dois projetos apresentam algumas diferenas83: enquanto o DBpedia tem como nica fonte de dados a Wikipdia, o Freebase tambm toma como fonte de dados outros sites da web. Outra diferena que cada projeto utiliza o seu prprio schema, ou seja, cada um possui uma estrutura prpria de propriedades (predicados). Na Figura 17, possvel observar parte dos
79
1. Use URIs as names for things. 2. Use HTTP URIs so that people can look up those names. 3. When someone looks up a URI, provide useful information, using the standards (RDF*, SPARQL). 4. Include links to other URIs. so that they can discover more things. 80 Uma questo fundamental para o funcionamento desta grande base de dados que, segundo Segaran et al. (2009), o Linked Data no fornece mecanismos para que sites externos insiram dados nos grafos que fazem parte desta rede de dados, fornece apenas a funo de recuperao (query via SPARQL). 81 http://www.freebase.com/ 82 http://www.dbpedia.org/ 83 Essas diferenas foram publicadas pelo site do Freebase. Disponvel em: <http://wiki.freebase.com/wiki/DBPedia>. Acesso em: 17 set 2011.
82 dados estruturados relativos ao termo So Paulo no site do projeto DBpedia, apresentados em formato de tabela. Logo, se tomarmos So Paulo como sujeito, teremos, na coluna esquerda, uma lista de propriedades (predicados) e, direita, a lista dos valores correspondentes (objetos). Ainda na Figura 17, destacamos duas linhas da tabela: a oitava linha (ver 1 flecha vermelha) indica que a propriedade name (nome) tem como objeto So Paulo, j a nona linha (ver 2 flecha vermelha) tem como propriedade nickname (apelido) os objetos Terra da Garoa e Sampa. Os dados estruturados disponveis nos projetos Freebase e DBpedia podem ser utilizados como metadados por qualquer site. Logo, um site que aplica a lgica das triplas pode utilizar tais metadados no lugar do sujeito ou do predicado (BIZER et al., 2009). Isto pode ser vantajoso, pois se diferentes sites da web utilizam um mesmo endereo na referncia a um sujeito ou a um objeto, ento eles acabam por se referir ao mesmo significado para tal sujeito ou tal objeto.
Figura 17 Tela que mostra parte dos dados estruturados relativos ao termo So Paulo no site do projeto DBpedia84
84
Disponvel em: <http://dbpedia.org/page/So_Paulo>. Acesso em: 17 set 2011.
83 A rede de iniciativas em conformidade com o Linked Data cresce a cada ano. Geralmente, essas iniciativas se conectam umas s outras para que os dados publicados em um domnio sejam aproveitados por outro domnio. Por exemplo: um repositrio sobre msicas pode reaproveitar os dados de um repositrio sobre eventos musicais, e vice-versa. Assim, com o crescimento do nmero de projetos e do nmero de relacionamentos, criada uma rede semntica conhecida como Linked Data Cloud (nuvem de dados lincados), ou simplesmente Cloud of Data (SEGARAN et al., 2009). Na Figura 18, possvel perceber como era esta nuvem em maio de 2007 em um diagrama publicado pelo site do projeto85. Na Figura 19, est o mesmo diagrama, porm atualizado em 19 de setembro de 2011, ou seja, aps quatro anos de crescimento. Entre os ns do diagrama de 2011, possvel encontrar sites como o DBpedia e o Freebase.
Figura 18 Diagrama do Linked Data, atualizado em maio de 200786
85 86
Linked Data. Disponvel em: <http://linkeddata.org/>. Acesso em: 12 jan. 2012. Disponvel em: <http://richard.cyganiak.de/2007/10/lod/>. Acesso em: 12 jan. 2012.
84
Figura 19 Diagrama do Linked Data, atualizado em 19 de setembro de 201187
A nuvem de dados do Linked Data est amarrada pelas triplas RDF que utilizam como identificadores as URIs dos projetos envolvidos, e por isso que essas triplas funcionam como links RDF (BIZER et al., 2009). Tal situao permite que os servios que acessam ao menos um dos projetos envolvidos possam seguir as trilhas destes links RDF e assim encontrar os dados dos outros projetos vinculados. Segaran et al. (2009) apresenta um exemplo hipottico que envolve quatro iniciativas que fazem parte do Linked Data: o DBpedia, o Freebase, o MusicBrainz (uma enciclopdia sobre msica, que armazena dados e metadados sobre entidades do mundo da msica e os identifica com um identificador padro) e o site de reviews sobre msica da BBC, que identifica os artistas, as bandas e as msicas com identificadores (IDs) do MusicBrainz. O autor apresenta um aplicativo fictcio que responde a questes relacionadas msica. Ento, o autor formula a seguinte pesquisa: buscar reviews de lbuns musicais produzidos por artistas de um determinado pas que no seja os EUA. Tais reviews esto armazenados no site da BBC; contudo este site no armazena o local de origem das bandas, ento necessrio buscar esta informao em outro local da nuvem de dados. Logo, para buscar a resposta, o aplicativo realiza pesquisas em diversas colees de
87
Disponvel em: <http://richard.cyganiak.de/2007/10/lod/>. Acesso em: 12 jan. 2012.
85 metadados do Linked Data, detalhadas na Figura 20. Para um melhor entendimento, inserimos marcaes na figura e apresentamos a explicao do processo em um passo-a-passo: 1) O processo comea com a entrada do nome do pas no aplicativo. 2) realizada uma pesquisa em SPARQL no repositrio da DBpedia por bandas localizadas no referido pas. A pesquisa encontra resultados, porm o DBpedia no utiliza IDs do MusicBrainz, necessrios para que possamos encontrar os reviews na BBC, j que os reviews so indexados com IDs do MusicBrainz. 3) Como o Freebase compatvel tanto com o MusicBrainz quanto com o DBpedia, ento o aplicativo fictcio recebe os resultados da pesquisa no DBpedia em formato de IDs do Freebase. 4) Os IDs do Freebase so enviados como uma nova pesquisa ao respectivo repositrio. 5) So recebidos novos resultados, porm no formato de ID do MusicBrainz. 6) Por fim, com as identificaes das bandas selecionadas no formato de ID do MusicBrainz, basta enviar estes IDs como nova pesquisa contra o repositrio da BBC. 7) O aplicativo recebe finalmente os reviews solicitados.
Figura 20 Diagrama com fluxo de pesquisas na nuvem de dados para aplicativo fictcio (SEGARAN et al., 2009, p. 112) com marcaes que indicam a ordem das pesquisas (marcao nossa)
86
Embora parea um processo complicado, nem sempre necessrio realizar um percurso burocrtico como este, pois o exemplo foi apresentado pelos autores como exerccio de compreenso sobre o funcionamento do Linked Data. Neste captulo, apresentamos uma explanao detalhada sobre alguns dos principais conceitos que constituem a Web Semntica: os metadados para as mquinas, as triplas em RDF e as ontologias em OWL. Buscamos tratar sobre os termos que surgem na anlise dos casos aqui estudados e apresentados no prximo captulo. Existem outras concepes e propostas tecnolgicas para a Web Semntica alm da proposta da W3C (AKERKAR, 2009), entretanto, mantivemos o foco nas tecnologias empregadas pelos produtos da BBC, escolhidos como casos para estudo desta dissertao. A seguir, partimos para a apresentao dos casos estudados e para a anlise dos dados.
87
3 A WEB SEMNTICA NO JORNALISMO DIGITAL

As vantagens de um sistema semntico global alcanariam diversas reas que trabalham informao. Souza e Alvarenga (2004) citam algumas dos benefcios esperados para a atividade dos profissionais da cincia da informao, tais como: projetos de novos e melhorados motores de busca, construo de interfaces com o usurio para sistemas de informao, construo automtica de tesauros e vocabulrios controlados, indexao automtica de documentos, gesto do conhecimento organizacional, gesto da Informao Estratgica e da Inteligncia Competitiva.
Especificamente no jornalismo digital, podemos especular diversos destes benefcios, devido natureza informativa da rea. Bertocchi (2010) cita pelo menos cinco formas como as tecnologias semnticas podem colaborar na produo e distribuio das narrativas jornalsticas em ambiente digital:
[...] na entrega informativa (como os dados chegam aos usurios, em quais dispositivos e com qual aparncia); na pesquisa de dados (como as notcias so recuperadas pelos usurios); na explorao e visualizao dos dados (como as informaes so visualmente apresentadas aos usurios) e, ainda, na forma de percepo do texto (como as notcias so compreendidas pelos usurios) (BERTOCCHI, 2010, p. 8).
possvel perceber que grande das vantagens esperadas de uma rede semntica se refere organizao e ao gerenciamento das informaes. Com esse pressuposto, partimos para o seguinte problema de pesquisa: quais seriam as potencialidades que a Web Semntica ofereceria para a organizao e o gerenciamento dos contedos jornalsticos? Para isso, propusemos analisar dois casos que j tenham utilizado as tecnologias semnticas para esse gerenciamento. A seguir, descrevemos como foi o processo de seleo dos dois casos: o BBC World Cup 2010 e o BBC Wildlife.
3.1 Seleo do corpus da pesquisa Para a seleo do corpus a ser analisado, partimos das indicaes encontradas em pesquisas bibliogrfica e documental, como em artigos, documentos, entrevistas, debates e
88 apresentaes disponibilizados na web por autores, especialistas, desenvolvedores, jornalistas e entusiastas que trabalham com o tema da Web Semntica. Para delimitarmos o universo da anlise, determinamos que os casos a serem selecionados devessem ser produtos desenvolvidos por iniciativas oriundas do mainstream jornalstico, ou seja, de organizaes consolidadas que possuam capacidade de investimento em pesquisa e tecnologia e que j apresentam uma grande audincia. Dessa forma, nos certificamos de que os produtos fazem parte de um projeto editorial de jornal e que tenham passado pelo crivo de uma base consistente de usurios. Aps listarmos casos de referncia populares em citaes encontradas nas pesquisas bibliogrfica e documental, foi realizada uma observao livre nos produtos pr-selecionados. Esta primeira etapa do processo de seleo do corpus de pesquisa resultou em produtos experimentais desenvolvidas por duas organizaes europeias (BBC e The Guardian) e uma norte-americana (The New York Times). A anlise de produtos da Web Semntica exige mais do que a observao direta dos mesmos a partir de suas interfaces. necessria, tambm, uma investigao sobre o funcionamento interno destes produtos. Tal situao ocorre porque nem sempre possvel observar as tecnologias semnticas em funcionamento a partir do produto final, pois geralmente tais tecnologias executam operaes no servidor e esse, por sua vez, envia ao software navegador apenas o resultado final das operaes semnticas88. Este mesmo problema ocorre no estudo aprofundado de produtos jornalsticos com arquitetura da informao baseada em bases de dados: em tais produtos, a anlise exige o conhecimento tanto da estrutura interna (back-end) quanto da interface externa e pblica do produto (frontend) (PALACIOS e NOCI, 2009). Ao considerarmos estas restries, conclumos que os casos analisados deveriam suprir ao menos uma das duas condies seguintes: ser acessvel ao pesquisador o suficiente para possibilitar a coleta de dados primrios junto aos funcionrios da empresa, a fim de se compreender o funcionamento das tecnologias semnticas empregadas no produto; apresentar dados secundrios consistentes e diversificados, tais como depoimentos, bibliografias, documentos, debates, apresentaes e outros textos que abordem a funcionalidade das tecnologias semnticas empregadas no produto.
88
Em uma pgina especial da W3C que disponibiliza perguntas e respostas sobre a Web Semntica, h a confirmao desta situao: na pergunta eu vou enxergar a Web Semntica no meu navegador do dia a dia?, a resposta apresentada pela organizao foi: no necessariamente, ao menos no diretamente. As tecnologias da Web Semntica podem agir por baixo dos panos, resultando em uma melhor experincia do usurio, ao invs de influenciar diretamente no visual do navegador (traduo nossa). Disponvel em: <http://www.w3.org/2001/sw/SW-FAQ#swonbrowser>. Acesso em: 27 nov 2011.
89 Ao considerarmos tais condies, conclumos que a primeira condio no seria vivel, devido s diferenas geogrficas e culturais e ao curto perodo da pesquisa, o que, ao combinarmos tais entraves, previmos que impossibilitariam a realizao de uma eventual srie de entrevistas com diversos funcionrios da organizao. Tomamos, ento, como requisito para a seleo do corpus a segunda condio, ou seja, a existncia de grande quantidade de dados secundrios que abordem o funcionamento do produto. Por esta razo, entre as organizaes pr-selecionadas, decidimos pela BBC, por apresentar no apenas maior quantidade de dados secundrios, mas tambm por ter demonstrado o uso de tecnologias semnticas em mais de um produto digital. Outra justificativa pela sua escolha pelo fato de que os dados secundrios foram produzidos diretamente pelos funcionrios envolvidos no desenvolvimento dos produtos, em relatos dispersos na web, caracterizando tais dados como verdadeiros depoimentos, o que nos aproxima da qualidade dos dados primrios. A BBC a maior emissora de rdio e televiso do Reino Unido (de acordo com a prpria BBC, a maior do mundo89). A organizao tem tradio na implantao de tecnologias digitais em seus produtos, como cmeras de alta definio para documentrios e canais de televiso interativos. Para realizarmos a nossa investigao, selecionamos dois produtos digitais da BBC, cada um deles como um caso a ser estudado: o site BBC World Cup 201090 e o site BBC Wildlife91. A seguir, passamos para a identificao e descrio de cada um dos casos. Aps esta descrio, apresentamos uma anlise sobre como as tecnologias semnticas identificadas nos casos estudados atuam nas categorias do Jornalismo Digital em Base de Dados e como contribuem para a organizao e o gerenciamento do contedo jornalstico.
3.2 Caso BBC World Cup 2010 O BBC World Cup 2010 um site jornalstico especial da BBC para a Copa do Mundo de 2010. Funciona como um portal para abrigar todo o contedo jornalstico da BBC relacionado ao evento (notcias, blogs, perfis, imagens, vdeos e estatsticas). Embora a Copa tenha sido finalizada h aproximadamente um ano e meio desde a produo desta pesquisa, o site continua online, com todas as suas funcionalidades. A publicao e a organizao do
89
The BBC is the largest broadcasting organisation in the world. Its mission is to enrich people's lives with programmes that inform, educate and entertain. Disponvel em: <http://www.bbc.co.uk/aboutthebbc/purpose/what.shtml>. Acesso em: 4 dez 2011. 90 http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/ 91 http://www.bbc.co.uk/nature/wildlife
90 contedo so realizadas de forma automatizada, graas s tecnologias semnticas. Embora publique contedos unicamente da editoria de esportes, foi um produto jornalstico que se aproximou do modelo de publicao de hard news92, devido alta frequncia de visitao de usurios e intensa produo de contedos no perodo de cobertura do evento esportivo. No APNDICE B, apresentamos os profissionais que serviram como fontes de dados secundrios para a identificao e descrio das tecnologias semnticas. Alm das produes dos profissionais, foram consultados documentos disponibilizados pela prpria BBC, como a pgina em que descrita a ontologia do BBC World Cup 2010. 3.2.1 Descrio do produto O site possui dois tipos de contedos: o jornalstico (informativo e opinativo), que na poca da Copa do Mundo 2010 era constantemente atualizado pelos jornalistas, e um contedo permanente de referncia utilizado para descrever trs grupos-chave de assuntos relativo Copa do Mundo, que so constantemente citados nas narrativas jornalsticas: times, jogadores e grupos. Este contedo permanente serve como uma base de conhecimento para a construo dinmica das diversas pginas que fazem o site. Para cada unidade individual que faz parte dos elementos citados (ou seja, para cada time, cada jogador e cada grupo da Copa), existe uma pgina nica que rene, de forma automatizada, diversos tipos de contedos relacionados ao assunto da pgina. No decorrer da competio, foram criadas, tambm, pginas nicas para cada partida realizada. As pginas dos grupos, dos times, dos jogadores e das partidas somam ao todo 832 unidades93. As pginas dos contedos de referncia (grupos, times e jogadores) apresentam interface semelhante umas com as outras: so trs colunas, sendo que a primeira igual para todas (links para as ltimas partidas do evento), j as outras duas colunas renem, de forma automatizada, dados atualizados sobre o elemento em questo (so as colunas que nos interessam, pois o local de publicao dinmica do contedo contextualizado). O que
Para Tuchman (1978), podemos identificar tipos de contedos jornalsticos. A autora destaca dois tipos principais: os hard news, que so notcias importantes para os seres humanos (TUCHMAN, 1978, p. 48, traduo nossa), ou seja, informaes que as pessoas deveriam ter para se tornarem cidads informadas (idem); e as soft news, que so notcias interessantes porque lidam com a vida dos seres humanos (idem), ou, em outras palavras, diz respeito s fraquezas humanas e textura da nossa vida humana (idem). Entendemos neste trabalho as hard news como notcias factuais e de interesse pblico, e as soft news como notcias de interesses de pblicos especficos, relacionados vida privada ou a questes de interesse humano, e que no se encaixam em editorias de grande relevncia no exerccio da cidadania, tais como poltica, economia e geral. 93 Clculo baseado nos seguintes nmeros: 32 times, 23 jogadores por time, 8 grupos da Copa, 6 partidas por grupo, 8 partidas da 2 fase, 4 partidas das quartas-de-final, 2 partidas das semifinais, 1 partida da final, 1 partida do 3 colocado. Ento: 32 times + 736 jogadores + 64 partidas = 832 pginas.
92
91 diferencia as pginas dos times das pginas dos jogadores ou de grupos a incluso de dados especficos para cada tipo de entidade, como estatsticas apropriadas para cada elemento. A pgina dos times (ver indicaes na Figura 21) apresenta, na coluna central: A) as ltimas partidas da seleo em questo com os respectivos resultados, B) as ltimas notcias, C) as ltimas mdias, D) os ltimos artigos de opinio, E) uma galeria de fotos, F) algumas estatsticas sobre a eficincia do time na competio, G) um perfil do time (com braso oficial e links para perfil estendido e estatsticas estendidas), H) uma tabela com a lista de jogadores com informaes bsicas sobre os mesmos (cada nome de jogador um link para a pgina do respectivo), I) uma lista maior das ltimas notcias sobre o time e, por fim, na parte final da coluna, J) uma lista que mostram links para contedos relacionados ao time em questo. Na coluna da direita, a pgina apresenta: K) a tabela do grupo em que o time faz parte, L) uma lista com reportagens especiais, M) uma lista de links para contedos relacionados que estejam fora do site da BBC, e, por fim, N) a lista das cinco matrias mais lidas.
92
Figura 21 Pgina dos times (Seleo brasileira), dividida em duas partes94
A pgina dos jogadores (ver Figura 22) apresenta, na coluna central: A) a identificao do jogador (nome, nacionalidade, posio, nmero da camisa, data de
94
Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/groups_and_teams/team/brazil>. Acesso em: 11 dez. 2011.
93 nascimento e altura), B) as estatsticas do desempenho na competio, C) a lista de partidas (com resultados) em que jogou junto a sua seleo, D) as duas ltimas notcias em que consta seu nome, E) ltimas mdias em que mencionado, F) posts opinativos de blogs em que mencionado, G) um perfil biogrfico do jogador e, por fim, H) uma lista maior de ltimas entradas (notcias, mdias, posts etc) em que o jogador mencionado. Na coluna direita, I) h apenas a lista das cinco matrias mais relevantes sobre seu time (Top 5).
Figura 22 Pgina dos jogadores (jogador Robinho), dividida em duas partes95
A pgina dos grupos (ver Figura 23) apresenta, na coluna central, os seguintes espaos: A) a tabela de times com estatsticas para cada seleo (jogos, vitrias, derrotas, pontos etc), B) a lista das ltimas notcias, C) as ltimas mdias (udio e vdeo), D) os ltimos artigos de opinio (posts de blogs), E) uma galeria de fotos, F) uma lista maior das ltimas notcias sobre o grupo e, por fim, na parte final da coluna, G) h uma lista que mostram links
95
Disponvel em: <http://www.bbc.co.uk/sport/0/football/world_cup_2010/groups_and_teams/team/brazil/robinho/>. Acesso em: 11 dez. 2011.
94 para contedos relacionados ao grupo em questo. Na coluna da direita, a pgina apresenta: H) a lista de partidas do grupo, I) algumas reportagens especiais e J) a lista das 5 notcias mais relevantes (Top 5).
Figura 23 Pgina dos grupos (grupo G), dividida em duas partes96
A pgina das partidas (ver Figura 24) segue um layout diferenciado em relao s outras. Alm do resultado, ela apresenta duas grandes reas: na rea A, mostrado o relato da partida, feita por um jornalista. Nesta mesma rea, h uma aba intitulada Comentrio, que mostra um fluxo cronolgico de mensagens publicadas no perodo do jogo, misturando relatos do narrador e comentrios de jornalistas e usurios do site, originados do prprio site, de
96
Disponvel em: <http://www.bbc.co.uk/sport/0/football/world_cup_2010/groups_and_teams/group_g/>. Acesso em: 11 dez. 2011.
95 outros sites da BBC, da rede Twitter e do servio de mensagens SMS. Na rea B, h diversas estatsticas distribudas em trs abas: na 1, a tabela de informaes sobre a partida (resultado final, jogadores que marcaram gol, escalao, cartes, jogadores substitudos, estdio, juiz e pblico total), na 2 aba, so apresentadas estatsticas tcnicas do jogo (tempo de possesso da bola, quantidade de escanteios e faltas etc), e na 3 aba, a tabela do grupo projetada logo aps o resultado da partida. Na coluna da direita (rea C), h apenas informaes no relacionadas partida (anncios, links para sites sobre a Copa e informaes sobre como enviar mensagem para a aba Comentrio). Na Figura 24, mostrada a pgina de uma partida, com o relato do jogo (A) e as informaes relacionadas partida (B).
Figura 24 Pgina das partidas, com o relato (A) e as informaes (B) sobre o jogo97
97
Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/matches/match_57/default.stm>. Acesso em: 12 dez. 2011.
96
A Figura 25 mostra a pgina da mesma partida, porm com outras abas selecionadas (comentrios na indicao A e estatsticas na indicao B).
Figura 25 Pgina da partida, com comentrios (A) e estatsticas (B) sobre o jogo98
Nas pginas das matrias (Figura 26), em que so publicadas notcias e reportagens analticas, a coluna central ocupada apenas pela narrativa jornalstica da matria. Na coluna da direita, h trs listas de links relacionados ao texto: A) para matrias do site World Cup
98
Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/matches/match_57/default.stm>. Acesso em: 12 dez. 2011.
97 2010, B) para matrias de sites da BBC e C) para sites externos. A narrativa das matrias apresenta frequentemente elementos diferentes do textual, como imagens, vdeos e caixas (box). Embora exista um grande potencial para a lincagem do texto com as pginas dos times e dos jogadores, muitos textos no aproveitam este recurso, e so publicados sem link algum.
Figura 26 Viso parcial da pgina de notcia, com marcaes em trs listas de links99
99
Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/8823478.stm>. Acesso em: 11 dez. 2011.
98 No existe uma pgina especial para os artigos de opinio, pois os links sempre remetem o usurio ao blog do respectivo colunista/articulador. A pgina inicial (ver Figura 27) um hub que rene links para os contedos jornalsticos. dividida em 3 colunas: na da esquerda, A) h uma lista dos artigos de opinio (blogs); na central, so mostradas B) as chamadas para as ltimas matrias (notcias, reportagens), C) as chamadas para matrias aprofundadas, D) as ltimas notcias sobre as selees finalistas, E) notcias sobre a Copa em outros sites da web, e F) links para sites relacionados Copa, como o site da FIFA. Na terceira coluna, so apresentadas: G) uma lista automtica dos maiores goleadores da competio, H) uma lista das ltimas mdias produzidas pela BBC (vdeos e udios) e I) mdias e notcias oriundas de sites internacionais da BBC sobre o evento.
Figura 27 esquerda, uma viso parcial da pgina inicial do site World Cup 2010. direita, a mesma pgina, porm completa e com marcaes que indicam as reas relatadas100
100
Disponvel em: <http://news.bbc.co.uk/sport1/hi/football/world_cup_2010/>. Acesso em: 11 dez. 2011.
99 Alm da pgina inicial, h duas outras pginas que funcionam como hubs, porm para as pginas dos times, dos jogadores, dos grupos e das partidas. A pgina Groups and Teams (Figura 28) mostra todos os oito grupos da Copa, cada um em uma tabela, alm do mapa dos confrontos realizados aps a fase dos grupos A pgina Fixtures and results (Figura 29) apresenta um calendrio com todas as partidas da Copa, em que os resultados so mostrados para os jogos j realizados.
Figura 28 Pgina Groups and teams. Na parte superior: os oito grupos da Copa. Na parte inferior: o mapa de confrontos ps-fase de grupos101 Disponvel em: <http://news.bbc.co.uk/sport1/hi/football/world_cup_2010/groups_and_teams>. Acesso em: 17 dez. 2011.
101
100
Figura 29 Pgina Fixtures and results102
A navegao do site realizada atravs de dois menus principais: um superior e outro na base da pgina. No menu superior (Figura 30) as trs opes oferecidas direcionam o usurio s pginas hubs: o link World Cup 2010 (pgina inicial), o link Groups & Teams (pgina que mostra os oito grupos e os confrontos) e Fixtures & Results (pgina que mostra as partidas em um calendrio, com os devidos resultados). O menu inferior (Figura 31) lista as 32 selees participantes do evento esportivo, em que cada seleo um link para a pgina do respectivo time.
102
Disponvel em: <http://news.bbc.co.uk/sport1/hi/football/world_cup_2010/fixtures_and_results>. Acesso em: 17 dez. 2011.
101
Figura 30 Menu superior do site World Cup 2010
Figura 31 Menu inferior do site World Cup 2010
Enquanto a opo World Cup 2010 do menu superior a principal porta de entrada para os contedos jornalsticos (atravs das chamadas para as matrias), as outras opes do acesso s pginas dos grupos, times, jogadores ou partidas. O abundante cruzamento de links nas pginas faz com que as prprias interfaces dos contedos se transformem em dispositivos de navegao. Por exemplo: a partir da pgina do time, possvel clicar em links para jogadores, partidas, notcias ou opinies. Ou seja: todas as pginas do site seguem a esttica base de dados, pois a estrutura visual determinada por elementos formados a partir de pesquisas em BDs (queries), como listas de links, infogrficos dinmicos (no interativos) e caixas com dimenses delimitadas pelos dados dinmicos. At aqui, descrevemos a interface e os funcionamentos do site BBC World Cup 2010. A seguir, passamos para a justificativa sobre a necessidade de se utilizar uma soluo semntica na organizao e gerenciamento do site. 3.2.2 Contexto e justificativa para uso das tecnologias semnticas Os desenvolvedores da BBC encontraram o desafio de organizar e gerenciar um site com uma grande quantidade de contedos oriundos de diferentes setores da emissora, como posts de blogs, textos da redao da BBC News, textos do site BBC Sports e mdias de fotojornalistas e cinegrafistas. O desafio se tornou ainda maior ao considerarem que o evento envolve 32 selees em oito grupos que somam 736 atletas e, para cada um, havia a necessidade tanto de informaes permanentes (como os perfis biogrficos) quanto de informaes atualizadas frequentemente no perodo do evento (como as estatsticas e os
102 resultados). Segundo ODonovan (2010), cada uma dessas pginas uma aggregation page (que o autor denomina de index page, ou seja, uma pgina principal que agrega dados de um pequeno universo especfico). As mais de 800 index pages do World Cup 2010 so em maior quantidade do que todos os index pages do site BBC Sports103. ODonovan afirma que, normalmente, a administrao de tantas index pages no seria possvel, j que para cada uma delas seria necessrio um editor com funo de curador das informaes publicadas, para configurar as regras de automao ou atualizar as index pages com as ltimas matrias e estatsticas. Para ele, clara a necessidade da automao, porm as tecnologias de busca e mtodos empregados at o momento no tinham se mostrado precisos, logo seria um risco empreg-las em um sistema com tantas pginas. Como exemplo, ele afirma que no gostaria de ver informaes misturadas entre pginas de jogadores com o mesmo sobrenome. Os contedos produzidos pelos jornalistas j eram armazenados em bases de dados relacionais e continuaram sendo armazenadas desta maneira. O desafio no era o armazenamento, mas uma maneira de agregar estes contedos e construir as pginas de forma automatizada, ou seja, de publicar os contedos jornalsticos em determinadas pginas com o mnimo de interveno humana. Segundo Rayfield (2010), a escolha pelo sistema semntico na publicao de metadados, em detrimento das tradicionais bases de dados relacionais, se d pela necessidade de interpretao dos metadados de acordo com um modelo de ontologia de um domnio, pois a ontologia permite um mapeamento inteligente dos contedos jornalsticos em relao a determinados significados. Rayfield exemplifica com a seguinte situao: se um jornalista associa o conceito do jogador ingls Frank Lampard a sua matria, o sistema automaticamente cria inferncias (atravs de triplas) e aplica a essa matria conceitos como Seleo da Inglaterra, Grupo C e FIFA World Cup 2010. Dimitrov (2010) cita a ferramenta como uma plataforma de publicao dinmica e semntica (dynamic semantic publishing platform). Rayfield explica que o sistema semntico no seria tanto um espao de publicao direta de contedos, como ocorre nos tradicionais sistemas de gerenciamento de contedo, mas seria mais um sistema de publicao de metadados, que permitiriam um relacionamento rico entre os contedos e, assim, uma navegao semntica. Atravs de queries nesses metadados publicados, conseguimos criar dinamicamente pginas agregadas para times, grupos e jogadores (Rayfield, 2010, online).
103
http://news.bbc.co.uk/sport
103 3.2.3 Identificao de recursos e tecnologias semnticas utilizadas Segundo os dados coletados a partir dos depoimentos dos desenvolvedores da BBC e de outros documentos, as principais tecnologias semnticas utilizadas no site foram as seguintes: Triplas em RDF, para relacionar recursos a objetos. Repositrio semntico triple store104 para gerenciamento de metadados em RDF. Foi utilizado um sistema privado, produzido pela empresa Ontotex, chamado BigOWLIM. Ontologia prpria, de domnio (sobre a Copa do Mundo), em OWL. Sistema manual de etiquetagem de contedos (tagging), com auxlio de um software que j apresenta um vocabulrio pr-definido (Graffiti). Sistema de extrao automtica de conceitos de contedos em linguagem natural (software IBM LanguageWare). SPARQL, para as pesquisas query no triple store. Dados e metadados disponveis por terceiros na nuvem da Linked Data.
3.2.4 Descrio do funcionamento das tecnologias semnticas O site World Cup 2010 da BBC rene contedos de diversas fontes. Tais contedos so originalmente armazenados em bases de dados relacionais, pois so publicados via sistemas publicadores de contedo (CMS). O sistema semntico do site responsvel por recuperar tais contedos, associ-los a determinados conceitos (atravs de inferncias automatizadas) e, a partir dessas associaes, public-los nas pginas corretas, dentro de um universo de mais de 800 pginas. Alm dos textos jornalsticos e das mdias, o sistema tambm alimentado por informaes estruturadas e constantemente atualizadas (feeds) oriundas de outros sites, como estatsticas produzidas pelo site de esportes da BBC. Rayfield (2010) explica que o sistema de publicao dinmico e semntico da BBC possui uma ontologia prpria para o domnio do futebol, que define certos conceitos (e seus relacionamentos), tais como: jogador, time e grupo. Assim, segundo o exemplo apresentado pelo desenvolvedor, a ontologia pode inferir que Frank Lampad parte do time Seleo da Inglaterra, e que Seleo da Inglaterra compete no Grupo C da competio FIFA World
Triple store a denominao dada aos repositrios de triplas em RDF. Eles so bancos de dados que, ao invs do modelo relacional (em tabelas), utilizam o modelo em graph. Os triple stores so utilizados para armazenar as ontologias e os metadados em tripla (RDF) utilizados pelo site em questo. dentro dos triple stores que ocorrem as queries em SPARQL e as inferncias nas relaes entre triplas e ontologias.
104
104 Cup 2010. A ontologia tambm define os tipos de contedos que os jornalistas publicam (matrias, blogs, perfis, imagens, vdeos e estatsticas) e os relacionam com os conceitos sobre a Copa do Mundo. A BBC costuma disponibilizar na web suas ontologias, porm, atualmente, a ontologia desenvolvida para a Copa do Mundo de 2010 est mesclada a uma ontologia105 mais geral sobre esportes, utilizada pela emissora para qualquer evento esportivo. At o presente momento (2011), a ontologia de esportes contava com 21 classes106 e 31 propriedades107. Cada entidade (tambm chamado individual) pode fazer parte de certas classes e possuir determinadas propriedades. Para que o contedo jornalstico (matrias, mdias e feeds) possa ser associado s definies da ontologia, necessrio identificar a presena de determinados termos conceitos dentro do referido contedo, seno, do contrrio, uma determinada matria sobre Seleo da Inglaterra no poderia ser associada s pginas dos seus jogadores, do seu grupo e de suas partidas. De acordo com Rayfield (2010), para se extrair conceitos dos contedos, h dois processos complementares: um manual e outro automtico. O processo manual o de tagging, ou seja, o jornalista autor responsvel por associar palavras-chaves a sua matria. Essa associao no arbitrria: h o auxlio de uma ferramenta denominada Graffiti, utilizada para associaes seletivas de determinados conceitos. J no processo automtico, um software analisa os textos e os compara aos conceitos da ontologia da Copa do Mundo. Esta anlise realizada por uma ferramenta desenvolvida pela IBM, o LanguageWare108, um processador de linguagem natural responsvel por extrair conceitos de contedos no estruturados (textos sequenciais, como documentos, relatrios, e-mails etc). Aps essa associao automtica, as tags so revisadas por um editor jornalista para que se mantenha a preciso e a qualidade dos metadados. Aps esta extrao de conceitos, os metadados so passados para o modelo em tripla (RDF) e armazenados em um repositrio triple store. Entre vrias possveis opes de sistemas para repositrio de triplas RDF, a BBC optou por escolher uma soluo comercial: o
Ontologia desenvolvida por Jem Rayfield, Paul Wilton e Silver Oliver. Disponvel em: <http://www.bbc.co.uk/ontologies/sport>. Acesso em: 7 fev. 2012. 106 So elas: Competition, CompetitionType, CompetitiveSportingGroup, CompetitiveSportingOrganisation, DivisionalCompetition, EventGender, FootballManagerRole, FootballPlayerRole, GroupCompetition, KnockoutCompetition, LeagueCompetition, Match, MultiRoundCompetition, MultiStageCompetition, RecurringCompetition, Round, Session, SportGoverningBody, SportingOrganisation, SportsDiscipline, UnitCompetition. Disponvel em: <http://www.bbc.co.uk/ontologies/sport>. Acesso em: 7 fev. 2012. 107 So elas: awayCompetitor, competesIn, competitionType, discipline, eventGender, firstRound, firstSession, firstUnitCompetition, hasRound, hasCompetitor, hasGroup, hasMatch, hasSession, hasStage, hasUnitCompetition, homeCompetitor, isCompetitiveSportingOrganisationOf, isGroupOf, isMatchOf, isRoundOf, isSessionOf, isStageOf, lastRound, lastSession, lastUnitCompetition, nextSession, nextUnitCompetition, prevSession, prevUnitCompetition, roundNumber, subDiscipline. Disponvel em: <http://www.bbc.co.uk/ontologies/sport>. Acesso em: 7 fev. 2012. 108 Disponvel em: <http://www-01.ibm.com/software/globalization/topics/languageware/index.html>. Acesso em: 27 jan. 2012.
105
105 triple store BigOWLIM109, um sistema que, alm de armazenar quantidades massivas de triplas, tambm tem a capacidade de gerar inferncias (KIRYAKOV et al, 2010). Segundo Dimitrov (2010), o triple store BigOWLIM armazena ontologias, informaes factuais sobre as entidades da Copa (jogadores, times, grupos, jogos etc) e os metadados associados aos contedos. Estes dados eram atualizados constantemente. Para a publicao dinmica e semntica dos contedos nas pginas, so realizadas queries (em SPARQL) no repositrio triple store para gerar as inferncias e obter os significados que determinam como as pginas devero ser montadas. Segundo Dimitrov (2010), no perodo da Copa, eram realizados entre 1 e 2 milhes de queries por dia. Alm da ontologia prpria sobre a Copa do Mundo de 2010, o triple store tambm leva em considerao outras ontologias ou vocabulrios externos, oriundas do Linked Data, como, por exemplo, na comparao entre o conceito de uma seleo nacional com os dados da DBpedia sobre a referida seleo. Ento, em outras palavras, o triple store BigOWLIM armazena os metadados das matrias em triplas RDF e a ontologia sobre a Copa do Mundo em OWL, e no processo de inferncia, integra os dados externos da Linked Data. Oliver (2010a, 2010b) utiliza um grfico (ver Figura 32) para demonstrar de forma simplificada como ocorre o processo de publicao semntica do site.
Figura 32 Viso simplificada do processo de publicao semntica da BBC (OLIVER, 2010b, traduo nossa)
Triple store desenvolvido pela empresa Ontotext. Segundo a empresa, a atual verso do BigOWLIN (denominado OWLIM-SE) um repositrio semntico com capacidade de carregar dezenas de bilhes de triplas. Disponvel em: <http://www.ontotext.com/owlim>. Acesso em: 27 jan. 2012.
109
106 Na Figura 32, da esquerda para a direita: a primeira camada representa os repositrios de contedos, em formatos diversificados e oriundos de fontes internas e externas. Na camada intermediria, a ontologia do domnio esportes, desenvolvida pela equipe da BBC, que serve como modelo para determinar os relacionamentos entre os contedos e, assim, definir a organizao da publicao. Por ltimo, a camada Experincia do usurio, que nada mais do que os documentos hipertextuais criados dinamicamente de forma automatizada. Segundo Oliver, para que a ontologia consiga determinar os relacionamentos, necessrio que os jornalistas associem tags consistentes aos contedos, que traduzam os conceitos dos mesmos. ODonovan resume o processo em uma frase: para ele, o ponto-chave que ns estamos usando alguns mtodos avanados para analisar contedos e decidindo como rotular esse contedo com metadados precisos e lincados a conceitos nicos (um conceito geralmente uma pessoa, um lugar ou uma coisa) (ODONOVAN, 2010, online). O autor tambm apresenta um grfico que explica o processo de publicao dinmica e semntica do site (Figura 33), porm de forma mais detalhada e complexa do que o grfico da Figura 32. Para fins de estudo, traduzimos as legendas presentes no grfico. O processo mostrado na Figura 33 uma ordem de baixo para cima. O fluxo formado por cinco caixas empilhadas, que representam as fases do processo. Cada uma das cinco fases est indicada com um nmero direita (marcao nossa).
Figura 33 Processo de publicao dinmica e semntica da BBC (ODONAVAN, 2010, traduo nossa, marcao nossa)
107 Na base da Figura 33 (indicada com o nmero 1), representada a construo da ontologia, como um modelo para o domnio da Copa do Mundo. Nesta fase, so definidos os conceitos sobre as entidades que fazem parte deste domnio e como elas se relacionam entre si. Por exemplo: um jogador uma pessoa; uma seleo nacional um time; um jogador faz parte de um (e apenas um) time; e assim por diante. Aps a modelagem da ontologia, necessrio passar dados reais para este modelo. Na caixa acima (n. 2), so carregados para a ontologia tais dados (conceitos e seus relacionamentos) oriundos de fontes internas e externas, tais como os dos datasets que fazem parte da Linked Data. Em seguida (n. 3), os contedos produzidos por jornalistas e as informaes estruturadas de fontes externas (ex.: feeds de estatsticas sobre jogadores e selees) so analisados e etiquetados (tags), a fim de se extrair conceitos destes contedos. Como j citamos, esta etiquetagem realizada atravs de dois processos: o tagging manual (com auxlio de uma taxonomia pr-definida por um software) e a anlise automtica do contedo via software de reconhecimento de conceitos de textos em linguagem natural. Na penltima caixa (n. 4), representado o repositrio semntico (triple store), que armazena os metadados gerados nas fases anteriores (inclusive a ontologia), organizados em grafos, que so utilizados na criao de inferncias, necessrias para a publicao automaticamente dos contedos jornalsticos nas devidas pginas geradas de forma automatizadas e apresentadas aos usurios (fase n. 5). Finalizamos aqui a descrio do primeiro caso estudado. No prximo tpico, passamos para a anlise das contribuies das tecnologias identificadas no caso em questo, baseandonos nas categorias do JDBD propostas por Barbosa (2007, 2008a). 3.2.5 Contribuies das tecnologias semnticas ao atual paradigma do JDBD Ao associarmos os depoimentos dos desenvolvedores da BBC com as categorias de anlise elencadas por Barbosa (2007, 2008a), o sistema de publicao semntico apresentou possibilidades de potencializao em grande parte das categorias, principalmente na de automatizao. A seguir, realizamos uma anlise em cada categoria do JDBD baseados nos dois casos estudados.
108 3.2.5.1 Dinamicidade O caso apresentou alto nvel de dinamicidade, pois no h trabalho manual na manuteno de interfaces ou na insero de contedos em cdigos HTML. No encontramos indcios de rupturas em relao aos atuais produtos jornalsticos em base de dados, j que, atualmente, grande parte dos sites que utilizam BDs j consolidou a lgica da separao entre contedo e apresentao, o que os torna altamente dinmicos, pois a separao entre contedo e apresentao exige um sistema dinmico de publicao. Entretanto, a autonomia das mquinas na associao de entidades (jogadores, times etc.) potencializa o carter dinmico do sistema semntico, pois a dinamicidade deixa de ser um atributo apenas das operaes de publicao, e passa a ser um atributo das operaes de deciso (ex.: a qual time um jogador deve ser associado?). Tal potencializao est diretamente relacionada categoria de automatizao. 3.2.5.2 Automatizao Praticamente, todo o site organizado de forma automatizada. Segundo Barbosa (2007), existem trs tipos de automatizao: a parcial (parte do processo automtica), a procedimental (vrias etapas do processo so automticas) e a total (todo o processo automtico). No caso do site World Cup 2010, a tcnica de tagging nos contedos manual, mas poderia ser excluda do processo, pois ainda haveria as tags resultantes da extrao automtica de conceitos via software; porm, a permanncia de um sistema manual de moderao de tags foi uma escolha da equipe, para que se mantenha a qualidade elevada do contedo (Rayfield, 2010). DOnovan afirma que a plataforma de publicao dinmica e semntica desenvolvida pela BBC modificou o fluxo editorial (workflow) da criao de contedos e gerenciamento do site: passa do modelo tradicional de publicar matrias e pginas index para o fluxo de publicar contedos e checar se as sugestes de tags esto corretas, pois as publicaes de matrias e pginas index so automatizadas, e foi esse novo fluxo editorial que permitiu a viabilidade de um projeto com mais de 800 pginas index.
109 3.2.5.3 Flexibilidade A Web Semntica contribui na categoria da flexibilidade por diversos motivos. Um deles a possibilidade de diferentes equipes produzirem contedos especializados em distintos locais de produo e, ainda assim, terem suas produes reunidas de forma automatizada em um produto, devido associao dos metadados destes produtos ao modelo de conceitos da ontologia. Foi o que ocorreu no caso do World Cup 2010, que reuniu, de forma automtica, contedos e feeds gerados por sites diferentes, tanto internos quanto externos BBC. Nas palavras de ODonovan, o uso de RDF e Linked Data torna o sistema incrivelmente flexvel. Para Rayfield, o modelo de tripla RDF tambm facilita a modelagem gil, enquanto que a modelagem do esquema relacional tradicional menos flexvel e tambm incrementa a complexidade da query (2010, online). Rayfield ainda afirma que a capacidade de gerar inferncias torna as queries e o processo de tagging mais rpidos e simples que o modelo em SQL tradicional, alm de aumentar a qualidade e a abrangncia dos contedos no site. Para ele, alm de ser mais flexvel do que o tradicional SQL, o triple store empregado ainda permite futuras expanses na abrangncia de dados relacionados, pois aceita a incluso de novas ontologias e datasets da Linked Data. Ou seja: o modelo de organizao dos dados no fica preso rigidez de uma estrutura de BDs em tabelas. 3.2.5.4 Inter-relacionamento/Hiperlinkagem A categoria de inter-relacionamento/hiperlinkagem, que a capacidade de identificar padres combinatrios e inter-relacionamentos diversos entre as informaes (BARBOSA, 2007, p. 238), reforada pela capacidade do sistema semntico de identificar as entidades com o mnimo de ambiguidade atravs do uso das URI como identificadores nicos para todos os sites envolvidos no Linked Data (e para toda a web). Dessa maneira, uma pgina que cita o nome de um jogador, de uma seleo, de um grupo ou de uma partida poder buscar dados sobre estes assuntos nos sites do Linked Data com menor chance de um erro de identidade no inter-relacionamento.
110 3.2.5.5 Densidade informativa Na categoria da densidade informativa, a grande vantagem do sistema semntico a convergncia de contedos diversificados oriundos de sites externos. No caso World Cup 2010, o Linked Data contribuiu bastante para a maximizao da densidade de informaes. Segundo Barbosa (2007), um produto jornalstico que obtm dados de diversas fontes ter uma densidade informativa maior. No caso do site da BBC, as pginas so alimentadas com contedos jornalsticos, posts de blogs e feeds de diversas fontes internas da emissora, alm da integrao de dados e metadados oriundos de outros datasets disponveis na internet e que respeitam as condies do Linked Data. Outra vantagem da Linked Data a possibilidade de liberao dos repositrios da BBC para queries realizadas por sites externos, j que o SPARQL realiza apenas operaes de recuperao de dados, ou seja, no realiza aes de incluso, excluso e update dos dados, como ocorre nas bases de dados relacionais com o uso de linguagens tradicionais de SQL (SEGARAN et al., 2009). 3.2.5.6 Diversidade temtica A categoria diversidade temtica foi uma das que menos demonstraram vantagens, devido natureza do site: todo ele sobre esportes, mais especificamente sobre um evento nico. Entretanto, embora Barbosa conceitue a categoria como diversidade de tematizaes e ilustre essa diversidade temtica com a listagem de editorias diferentes (como poltica, economia, cultura etc), poderamos considerar que h uma diversidade de formatos e gneros jornalsticos, como notcias, reportagens, artigos de opinio em blogs, mdias e estatsticas. Em relao aos quesitos tcnicos, consideramos que a diversificao de formatos um desafio mais complexo do que a diversificao de temas. Por isso, o sistema semntico poderia manejar facilmente a integrao de diversos temas em um mesmo produto jornalstico digital. Na Web Semntica, as entidades individuais so identificadas com URIs nicas, ento, independentemente do tema tratado nos contedos, se a entidade estiver presente neles, tais contedos podero ser recuperados e reunidos em uma mesma interface. 3.2.5.7 Visualizao Na categoria visualizao, que para Barbosa so as diferentes maneiras de se representar na tela as informaes jornalsticas armazenadas nas BDs, o sistema semntico do
111 site World Cup 2010 no demonstrou benefcios vantajosos em relao aos sistemas tradicionais, pois no houve o aproveitamento efetivo de recursos mais elaborados de visualizao, como os infogrficos interativos. Entretanto, ainda assim, pudemos observar pginas que apresentavam dados estruturados em formatos diferenciados, tais como as tabelas de resultados (Figura 28), calendrios de jogos (Figura 29), e grficos em barras com estatsticas (Figura 34) presente tanto na pgina dos jogadores quanto na pgina das selees. Acreditamos que a vantagem apresentada no site para a categoria de visualizao ocorre em uma etapa anterior construo dos grficos: ocorre na busca de dados em fontes internas e externas que ocorre graas s inferncias, ou seja, na associao automtica dos dados ao grfico a partir de significados gerados pela mquina.
Figura 34 Dados sobre jogador convertidos para o formato de grficos em barra
3.2.5.8 Convergncia A categoria da convergncia se beneficia pelo fato das mdias (udios e vdeos) serem etiquetadas (tagged) com metadados ricos em semntica, o que possibilita maiores chances de reaproveitamento das mdias em diversas matrias jornalsticas (e outros espaos do site). Outra vantagem para esta categoria o fato das pginas permitirem o reaproveitamento automtico de informaes presentes em outros sites da web, como no caso dos feeds. Se considerarmos que a convergncia mais do que a unio de mdias em um mesmo espao; que , tambm, a ideia de convergir contedos de origens diversas em um mesmo local
112 agregador, ento acreditamos que a categoria da convergncia uma das mais beneficiadas pelas contribuies da Web Semntica, pois est diretamente relacionada ideia de interoperabilidade entre sites e servios diferentes. A caracterstica da interoperabilidade possibilita o compartilhamento de contedos, que por sua vez pavimenta o caminho necessrio para o reaproveitamento de produes informacionais, miditicas e intelectuais. Finalizamos aqui a anlise do caso BBC World Cup 2010. No prximo tpico, comeamos o estudo do segundo caso selecionado para a pesquisa. No final deste captulo, realizamos uma anlise geral sobre as contribuies da Web Semntica identificadas em ambos os casos.
3.3 Caso BBC Wildlife O BBC Wildlife um portal que rene uma grande produo de contedos sobre o mundo natural, mais especificamente biolgico, como animais selvagens, plantas, fungos e, inclusive, seres pr-histricos. O site armazena e organiza seu contedo (textos, imagens, udios e vdeos) sobre a natureza como se fosse uma enciclopdia multimdia, e utiliza esta base de conhecimento em matrias jornalsticas sobre o tema. Ao contrrio do caso anterior, neste caso as tecnologias semnticas foram aplicadas para contedos mais leves, conhecidos como soft news ou feature, e se aproximam de produtos como reportagens de revista, documentrios e produtos informativos para educao e entretenimento. No APNDICE C, apresentamos os profissionais que serviram como fontes de dados secundrios para a identificao e descrio das tecnologias semnticas. Alm dos profissionais, tambm encontramos informaes importantes na pgina da ontologia desenvolvida para o site, na pgina de FAQ (questes frequentemente questionadas) e na pgina Feeds and Data, em que h indicaes sobre algumas das tecnologias semnticas empregadas. 3.3.1 Descrio do produto O BBC Wildlife rene uma grande quantidade de contedos multimdia produzidos continuamente por diferentes programas da BBC (TV, rdio e digital) que contenham como temtica a vida natural, mais especificamente os seres biolgicos, como animais, plantas, e inclusive dinossauros. S na parte de vdeo, so mais de 3000 clipes (de curta durao), oriundos de dezenas de programas em mais de 30 anos de produo televisiva da BBC. Na Figura 35, mostrada a pgina inicial do BBC Wildlife.
113
Figura 35 Pgina inicial do BBC Wildlife110
Alm do rico repositrio de mdias, outro grande destaque do site a organizao das pginas. Para cada uma das mais de mil espcies, h uma pgina nica gerada e atualizada de forma dinmica, que agrega informaes, udios e vdeos sobre a espcie em questo. Alm das pginas para as espcies, o site gera outras centenas de pginas para reunir contedos sobre animais que compartilham das mesmas caractersticas. Essas caractersticas so: habitat (ex.: floresta, deserto, marinho, urbano etc), comportamento/adaptao (ex.: se carnvoro, se voa, se noturno etc) e nvel da classificao biolgica (domnio, reino, filo, superclasse, classe, superordem, ordem, subordem, superfamlia, famlia, gnero e espcie). Como
110
Disponvel em: <http://www.bbc.co.uk/nature/wildlife/>. Acesso em: 21 dez. 2011.
114 exemplo, podemos citar uma pgina que agrega vdeos e informaes apenas sobre animais da classe dos insetos, outra apenas sobre animais e plantas com comportamento carnvoro, outra s com animais voadores, ou ainda uma pgina somente sobre animais e plantas que vivem no habitat urbano. As pginas apresentam diversos links umas para as outras, de forma dinmica, de acordo com os tipos de relacionamentos entre os conceitos. Por exemplo: a pgina de uma determinada espcie mostra uma lista de caractersticas que esta espcie apresenta (ex.: voador, carnvoro etc.), e cada caracterstica listada um link que abre uma pgina sobre animais que tambm apresentam tal caracterstica. Isso tambm ocorre com outras possveis relaes, como links de habitats na pgina das espcie, links de filos na pgina dos reinos etc. A navegao do site no funciona com um menu central permanente, como ocorre em sites tradicionais. H somente um menu na pgina inicial (Figura 36), que no mostrado nas outras pginas, pois serve apenas como ponto de partida para a navegao pelos links das pginas internas.
Figura 36 Menu na pgina inicial do site Wildlife. Marcaes nossas
O menu aparece somente na pgina inicial porque apenas uma porta de entrada para uma srie de pginas internas que, por sua vez, apresentam diferentes listas de links, que servem como menus contextualizados para o contedo que mostram. Ainda na Figura 36, possvel observar um nmero entre parnteses prximo a cada uma das opes do menu, que representam a quantidade de links encontrados na pgina interna a que o referido link remete
115 (ex.: ao clicar em Animals, aberta uma pgina que lista 979 espcies de animais, e cada item listado um link para a pgina da respectiva espcie). Alm destas trs categorias de navegao oferecidas no menu (por espcies, por comportamentos/adaptaes e por habitats), as pginas internas do site ainda oferecem duas outras categorizaes que possibilitam outra forma de navegao: por biorregio (oito grandes regies do mundo, ou seja, regies mais generalizadas do que os 59 habitats); ou pelos outros nveis da classificao dos seres vivos alm das espcies (domnios, reinos, filos, superclasses, classes, superordens, ordens, subordens, superfamlias, famlias e gneros), que geram centenas de pginas agregadoras de contedo. O site Wildlife constri uma pgina dinmica para cada habitat, cada comportamento/adaptao, cada biorregio e cada nvel da classificao biolgica (espcies, domnios, filos etc) (ver Figura 37). As pginas so construdas a partir de um template padro que divide o espao da tela em duas grandes reas: na parte superior (parte mais escura da Figura 37), so disponibilizados os contedos relacionados ao assunto em questo (ttulo, texto descritivo, links e mdias) oriundos de diferentes fontes internas e externas BBC. J na parte inferior (parte mais clara da Figura 37), so apresentadas diversas listas de links, como se fossem novos menus para contedos relacionados ao tema da pgina.
116
Figura 37 Viso parcial da pgina das espcies111
A estrutura da parte superior da pgina dinmica segue sempre o mesmo padro: ttulo, texto e galeria de mdias. J na parte inferior, os elementos da pgina mudam de acordo com o tipo de contedo tratado (se sobre uma espcie, mostra habitats e comportamentos da espcie; se sobre um habitat, mostra as espcies que fazem parte do habitat; e assim por diante). Para uma descrio mais detalhada, apresentamos novamente a pgina das espcies na Figura 38, porm com indicaes dos elementos que formam o layout.
111
Disponvel em: <http://www.bbc.co.uk/nature/life/Lion/>. Acesso em: 22 dez. 2011.
117
Figura 38 Pgina das espcies, com marcaes indicativas
118 Na parte superior da Figura 38, so apresentados os seguintes contedos: A) O ttulo e a descrio do contedo mostrado no momento. No caso do leo, como mostrado na figura, o texto da descrio apresenta links para algumas caractersticas da espcie, como uma regio onde o animal encontrado (frica) e um comportamento (carnvoro), alm do nvel da classificao biolgica a qual o leo se refere (espcie). Cada um destes links remete o usurio a uma pgina com estrutura semelhante, porm com contedos relacionados ao respectivo link. B) Espao para a reproduo das mdias (clipes de vdeo produzidos pelas dezenas de programas de televiso da BBC). C) Lista horizontal dos vdeos que a pgina agrega. Ao clicar em uma das miniaturas, o vdeo aberto no espao demarcado com a letra B, e mostrada a descrio do vdeo no espao A (ttulo do clipe, texto descritivo e nome do programa de origem da BBC em que o vdeo foi produzido, lincado para o site do respectivo programa). A lista de miniaturas pode ser deslizada para o lado, para se revelar mais miniaturas (a pgina da espcie leo continha 32 miniaturas no momento da pesquisa). Na parte inferior da Figura 38, so apresentados os seguintes contedos: D) Mapa com destaque s biorregies onde a espcie encontrada. E) Lista de habitats em que a espcie em questo pode ser encontrada. Este espao serve como um menu para outros contedos do site. Cada imagem um link que remete o usurio para uma pgina semelhante a esta, porm que agrega animais encontrados no habitat em questo. F) Lista de comportamentos (e adaptaes) que a espcie demonstra, tais como nmade, noturno, social ou territorial. Mais uma vez, o espao serve como um menu para o contedo do site, neste caso para pginas que agregam vdeos de animais com estes mesmos comportamentos. G) Status da conservao da espcie (ex.: vulnervel, ameaado de extino, extinto). H) Texto linear com informaes mais detalhadas sobre o assunto em questo. I) Nvel da classificao biolgica em que o assunto da pgina se localiza. Como no caso o leo uma espcie, ento tambm so mostrados os outros nveis anteriores, como gnero, famlia etc. A lista da classificao se torna um menu para contedos do site. J) Mdias sonoras relacionadas ao tema, oriundos de programas da BBC. No caso da Figura 38, so disponibilizadas gravaes de rugidos de lees.
119 K) Campo para pesquisa no site. L) Lista de notcias da BBC sobre o tema da pgina. Os links podem remeter o usurio para diferentes pginas da BBC. M) Lista com colees especiais de vdeos em que o assunto em questo mencionado. N) Links para pginas externas BBC que tratem sobre o assunto em questo. A espcie o nvel mnimo na organizao do contedo. Todas as outras pginas agregam contedos de vrias espcies. Por isso, ao invs de mostrarem links para habitats e comportamentos relacionados a uma espcie (como ocorre na pgina do leo), as pginas dos outros nveis da classificao biolgica apresentam links para grupos de animais que fazem parte do referido nvel. Ou seja: a parte inferior da pgina mostra links para a explorao dos nveis que derivam daquele grupo. Na Figura 39, h uma comparao entre trs pginas de nveis biolgicos diferentes: na parte inferior da pgina da espcie leo (primeira tela), as pequenas imagens so links para habitats e comportamentos dos lees (indicao A). Nas duas outras telas (classe mamferos e filo vertebrados), as pequenas imagens so para grupos de animais que fazem parte dos referidos nveis (indicaes B e C). Assim, ao se comear a explorao do site pela pgina do primeiro nvel da classificao (reino), a navegao pode levar o usurio de um nvel a outro, at que chegue pgina de qualquer espcie tratada pelo site.
120
Figura 39 Comparao entre as pginas de espcie (leo), classe (mamferos) e filo (vertebrados)
Cada pgina monta a sua estrutura de navegao automaticamente, de acordo com os tipos de relacionamentos que possuem com os contedos. Por exemplo: assim como a pgina
121 da espcie lista links para comportamentos e para habitats, as pginas dos comportamentos e dos habitats listam todas as espcies que deles fazem parte, como ocorre na Figura 40. Dessa forma, o sistema cria automaticamente uma malha de pginas interlincadas, rica em relacionamentos entre conceitos. Na Figura 40, possvel perceber a capacidade de agregao das pginas. Por exemplo, na pgina de comportamento/adaptao, h uma grande lista de espcies que possuem tal caracterstica, e todas esto organizadas de acordo com a classe que pertencem. Ainda, cada pgina divide as colees entre plantas e animais. As diferentes maneiras de se categorizar os contedos permitem que o site formule e distribua pelas pginas internas vrias listas de links, que convidam o usurio a continuar a navegao pelo site de acordo com o contexto, como se as prprias pginas internas fosse um grande menu de navegao.
122
Figura 40 Pgina de comportamento/adaptao (esquerda) e da pgina de habitat (direita)
123 As pginas apresentam informaes em diferentes formatos, como textos, clipes de udio, estatsticas e mapas. Destes, o tipo de contedo que se destaca so os clipes de vdeos, que, no Wildlife, so trechos curtos obtidos de documentrios televisivos (aproximadamente 3 minutos), mas que apresentam um sentido completo. Embora sejam construes de narrativas que buscam relatar o real, tais vdeos no apresentam a urgncia do relato sobre um acontecimento recente, caracterstica que faz parte da definio de notcia. Por essa razo, acreditamos que o contedo do site no seja classificado como produo jornalstica, pois at mesmo no jornalismo especializado, como no ambiental e no cientfico, h uma busca pela publicao de fatos relacionados a acontecimentos recentes. Porm, percebemos que a BBC aproveita essa base de conhecimento para enriquecer seus prprios contedos jornalsticos, tanto nos seus sites especializados sobre as questes ambientais e cientficas quanto no seu site principal de notcias. Em outras palavras, o enorme conjunto de pginas e de suas interligaes formuladas de acordo com os tipos de relacionamentos entre conceitos tornam o Wildlife uma base de conhecimento sobre um domnio especfico do mundo (a vida natural) que servem de complemento aos produtos jornalsticos da BBC. A partir desse repositrio, a BBC cria conexes entre o conhecimento ali organizado e os textos jornalsticos dos outros sites da emissora. Essa conexo pode ser apresentada pelos dois lados: se h links para notcias nas pginas do Wildlife, pode haver links do Wildlife nas respectivas pginas de notcias. Como exemplo, tomamos novamente a pgina da espcie leo, que mostra uma caixa de notcias da prpria BBC que mencionam a espcie (Figura 41).
Figura 41 Caixa de links para notcias relacionadas ao conceito de "leo"
124
Na Figura 41, so listadas as seis ltimas notcias indexadas. A seguir, citamos a origem de cada uma delas: Breeding hopes for Barbary lions at Port Lympne: BBC News Kent112 Lions breed best near joining rivers: BBC News Science & Environment113 The lion with a head for Heights: BBC Wiltshire114 Why lions roar and wildcats miaow: BBC Earth News115 'Trophy lion' hunts unsustainable: BBC Earth News116 Lion lunges at Las Vegas trainer: BBC News US & Canada117 Cairo zoo puts lions on human birth control pill: BBC News Middle East118
A Figura 42 mostra a pgina de uma das notcias listadas acima, do site BBC Earth News, especializado em jornalismo ambiental. A notcia, sobre a crescente ameaa da caa indiscriminada de lees e leopardos, apresenta uma caixa com links da BBC relacionados ao tema. Nesta caixa, h dois links para o Wildlife: na marcao A, um link para a pgina da espcie leo e, na marcao B, para a pgina da espcie leopardo. Para cada link, o ttulo apresenta o nome da espcie e a descrio vdeos, arquivos de udio, fatos, fotos e matrias, ou seja, indica que o Wildlife um complemento que contextualiza as informaes da notcia.
112 113
http://www.bbc.co.uk/news/uk-england-kent-15862433 http://www.bbc.co.uk/news/science-environment-12806519 114 http://news.bbc.co.uk/local/wiltshire/hi/people_and_places/nature/newsid_9135000/9135050.stm 115 http://news.bbc.co.uk/earth/hi/earth_news/newsid_9028000/9028491.stm 116 http://news.bbc.co.uk/earth/hi/earth_news/newsid_8993000/8993557.stm 117 http://www.bbc.co.uk/news/world-us-canada-11236560 118 http://www.bbc.co.uk/news/world-middle-east-11099756
125
Figura 42 Pgina de notcia no site BBC Earth News119
Embora os clipes de vdeos armazenados no Wildlife no sejam relatos de acontecimentos recentes, ainda assim eles contam histrias reais sobre o mundo natural, e muitas vezes so histrias que apontam para questes atuais, como no caso de um vdeo na pgina sobre lees que trata sobre americanos que pagam milhares de dlares para viajarem frica com o objetivo de caar os felinos. Embora o contedo que alimente o site seja proveniente de mais de 30 anos de produo de documentrios da BBC, muitas das informaes so referentes a questes atuais, e isso pode servir para pautar reportagens e artigos opinativos. Ao perceber este potencial e tambm o potencial de contextualizao da notcia, que j estava sendo explorado por diversos sites da BBC, a emissora decidiu, em maro de 2011, mesclar o site Wildlife com um site de informaes jornalsticas especializado na temtica natureza, chamado BBC Nature (SCOTT, 2011). O site BBC Nature possui oito sees temticas Home, News, Features, Blog, Video Collections, Wildlife, Prehistoric life e Places. Cada uma das oito sees possui uma pgina inicial, com chamadas para seus respectivos contedos. O acesso a cada seo ocorre nos links do menu principal (Figura 43).
Disponvel em: <http://news.bbc.co.uk/earth/hi/earth_news/newsid_8993000/8993557.stm>. Acesso em: 17 jan. 2012.
119
126
Figura 43 Menu principal do site BBC Nature, com links para as sees do site120
Embora cada link apresente uma pgina inicial com uma configurao visual prpria, estas sees compartilham basicamente da mesma base de contedos: os contedos editoriais do Nature (notcias e reportagens) e as pginas do Wildlife. A diferena entre elas a prioridade em mostrar determinados tipos de contedos. A seguir, detalhamos as particularidades de cada seo. As trs primeiras sees (Home, News e Features) so pginas estruturalmente bastante semelhantes (ver ANEXO B, ANEXO C e ANEXO D), em que so apresentadas chamadas para os contedos jornalsticos e galerias de mdias. A diferena entre as trs sees a prioridade dada no destaque aos links: na Home, os links so um apanhado geral da produo de todo o site; no News, as chamadas do preferncia para matrias mais factuais; e em Features, as chamadas do preferncia a reportagens ou contedos mais elaborados tecnicamente, como as galerias de mdias. O Blog (ver ANEXO E), intitulado Wonder Monkey, uma rea para publicao de postagens do editor do site, Matt Walker, que busca inserir em seus artigos links para as pginas do Wildlife. A seo Video collections (ver ANEXO F) lista colees de vdeos com um tema especfico. Por exemplo: no dia dos pais, o site pode criar uma lista com vdeos sobre espcies em que o macho o responsvel pela proteo das crias. Enquanto as sees Home, News e Feature geralmente apresentam uma narrativa jornalstica, no Video Collection o produto tem um com formato diferenciado (semelhante s pginas do Wildlife). De acordo com Raimond et al. (2010a), embora a seo utilize layout semelhantes s pginas do Wildlife, ela no apresenta a mesma automao, ou seja, as colees de vdeo so planejadas e estruturadas manualmente. Os autores afirmam que essa situao proposital, pois dessa forma a coleo se distingue como um produto editorial, e isso evita que o site apresente uma caracterizao enciclopdica.
120
Disponvel em: <http://www.bbc.co.uk/nature/>. Acesso em: 17 jan. 2012.
127 O link Wildlife (ver ANEXO G) leva para uma pgina inicial com chamadas para as pginas das espcies, dos habitats, dos comportamentos, dos filos, etc. Assim como as sees Home, News e Features so hubs para o contedo jornalstico, o Wildlife o principal hub para as pginas de animais, plantas e outros seres. A seo Prehistoric life (ver ANEXO H) a verso da pgina inicial do Wildlife, porm para a natureza pr-histrica. O link Places (ver ANEXO I) tambm mostra links para as pginas do Wildlife, porm os apresenta sobre um mapa do planeta terra. Em outras palavras, de forma resumida: as quatro primeiras sees (Home, News, Features e Blog) servem principalmente como entrada para contedos jornalsticos; as sees Wildlife, Prehistoric e Places servem como entrada, principalmente, para pginas do Wildlife; e a seo Video Collection rene os vdeos do Wildlife em colees montadas manualmente. Estes contedos de interconectam entre si atravs de links. A pgina inicial de cada uma das sees apresenta uma interface prpria, com uma organizao particular dos links e de outros elementos do layout. como se cada seo fosse um site independente, mas que compartilha a mesma base de contedos. Por fim, um ltimo exemplo sobre o aproveitamento da base de conhecimento do Wildlife no prprio BBC Nature atravs dos artigos escritos pelo editor do site, Matt Walker, publicados no blog disponvel como uma das oito sees do Nature. Na Figura 44, observamos uma reproduo parcial de um artigo escrito por Walker, em que aparecem vrios links dentro do texto, inseridos manualmente pelo prprio editor. Cada um dos links na tela representa uma espcie do Wildlife. No artigo em questo, foi possvel contar 11 links para pginas da prpria BBC Nature (para pginas de espcies do Wildlife ou para colees temticas de vdeos da seo Video Collections), alm de dois links para outros sites da BBC e um link para um site externo.
128
Figura 44 Reproduo parcial de artigo em blog do site BBC Nature. Marcaes nossas121
O BBC Nature um site com uma grande e complexa estrutura, por isso apresenta outros detalhes que no abrangemos nesta descrio, pois no contribuem para a compreenso sobre o funcionamento do sistema semntico na organizao do contedo do site. So detalhes como galerias de fotos que mudam de lugar de acordo com a pgina, links para compartilhamento das pginas em redes sociais ou rankings de notcias e clipes mais populares. Ao analisarmos o BBC Nature sobre uma outra perspectiva, podemos considera-lo como um portal que disponibiliza notcias sobre a temtica natureza e, ao mesmo tempo, agrega diferentes produtos da BBC sobre esta temtica, entre eles o Wildlife. Podemos fazer uma analogia ao site BBC Sports, que publica notcias sobre esportes e, tambm, agrega os sites da Copa do Mundo e das Olimpadas. Para a nossa anlise, consideramos apenas o BBC
121
Disponvel em: <http://www.bbc.co.uk/blogs/wondermonkey/>. Acesso em: 18 jan. 2012.
129 Wildlife, que de fato o espao com sistema automatizado para a publicao dinmica e semntica dos contedos multimdia da BBC. 3.3.2 Contexto e justificativa para uso das tecnologias semnticas Em relao ao Wildlife, a equipe encontrou um grande desafio na proposta de desenvolver um site que distribusse milhares de clipes de vdeos entre mais de mil pginas possveis de serem criadas, em um sistema de publicao automatizado que no deveria apresentar ambiguidades. Alm disso, os desenvolvedores da BBC procuraram conceber uma navegao imersiva no contedo, sem o ordenamento de menus centralizados, de maneira que o usurio pudesse trilhar seus caminhos de acordo com seus interesses, como se fosse uma jornada sem mapa pelo mundo natural. Segundo um dos desenvolvedores,
No passado, voc sentaria em frente TV e assistiria um documentrio de uma hora sobre a vida selvagem. Isso no funciona muito bem na web pessoas geralmente criam suas jornadas e assistem a clipes de vdeo com menor durao. Mas no site Nature, ns estamos permitindo que os usurios criem seus prprios documentrios eles podem comear [o acesso] em um animal, assistir a um clipe, seguir um link para outro animal, ler sobre aquele animal e por a vai... 122 (SINCLAIR, 2009, online)
O desafio de se criar uma navegao sem ambiguidade por uma rede com centenas de espcies e outras centenas de pginas agregadoras demandava um sistema slido de identificadores nicos. Outra demanda era o desenvolvimento de um modelo de relacionamentos flexvel, pois as divises da taxonomia biolgica se expandem para uma grande quantidade de terminaes, e cada uma delas poderia se relacionar no apenas com os nveis anteriores da taxonomia, mas tambm com determinadas caractersticas (comportamento/adaptao, habitat, biorregio) em comum com outras espcies. Em um momento futuro do projeto, poderia surgir a necessidade de se criar o conceito de uma nova caracterstica. O projeto ainda exigia o reaproveitamento automtico de contedos existentes na web, pois no seria prtico para a BBC a produo de tantas descries e dados sobre tantas espcies.
In the past, you'd sit down in front of the TV and watch an hour long wild life documentary. This doesn't work so well on the web - people are used to making their own journeys, and watching smaller length clips. But on the /nature site, we're letting users make their own documentary - they can start on an animal, watch a clip, follow a link to another related animal, read about that animal an so on..
122
130 Diante dos desafios, a equipe da BBC identificou que a melhor soluo seria evitar a abordagem tradicional de um site como um conjunto de documentos, e pens-lo como uma rede de unidades conceituais do mundo real e de suas relaes. As pginas seriam apenas uma decorrncia destas relaes, ou seja, seriam espaos criados dinamicamente para apresentar os resultados das associaes entre conceitos do mundo natural. Para isso, adotaram como melhor soluo para o Wildlife a ideia da Web Semntica. 3.3.3 Identificao de recursos e tecnologias semnticas utilizadas Segundo os dados coletados a partir dos depoimentos dos desenvolvedores da BBC e de outros documentos, as principais tecnologias semnticas utilizadas no site foram as seguintes: Triplas em RDF, para relacionar recursos a objetos. Uma verso serializada das pginas das espcies (RDF/XML), para permitir a interoperabilidade de seus prprios dados com projetos de terceiros. Ontologia prpria em RDF, para modelar os relacionamentos entre conceitos do domnio natural. URIs baseados nos identificadores da DBpedia (ou seja, da Wikipedia). Coleta de informaes da Linked Data (reaproveitamento de contedo da Wikipedia atravs do projeto DBpedia). Processo de tagging com uso de vocabulrio controlado (DBpedia). 3.3.4 Descrio do funcionamento das tecnologias semnticas Antes do desenvolvimento de uma soluo semntica para o site Wildlife, primeiro foi necessrio assegurar que houvesse um ambiente com as condies necessrias para que o sistema funcionasse. Uma destas condies era a de um sistema slido de identificadores para os contedos da BBC (URIs) para permitir a troca de dados entre sites da BBC. A falta de um sistema slido de identificao de recursos era um empecilho para a interoperabilidade entre sites da BBC. Segundo Raimond et al (2010a), a falta de integrao de dados entre os sites da BBC limitou algumas operaes, como a de extrair dados de um contexto e apresenta-los de maneira diferentes em outro local. Raimond et al. (2010a) afirmam que haveria a possibilidade de integrar contedos entre sites diferentes atravs de feed RSS. O problema desta soluo que as listas RSS no permitem segmentar os dados de acordo com o contexto. Por exemplo: como fazer com que
131 um feed de notcias sobre vrias espcies mostre apenas informaes sobre os elefantes em determinado contexto? Outra limitao do RSS a impossibilidade de se realizar pesquisas (queries) nos feeds. Os problemas citados at o momento ganham propores ainda maiores se considerarmos que todos os canais de TV e rdio da BBC veiculam de 1000 a 1500 programas por dia. At meados da dcada de 2000, os sites destes programas ainda eram produzidos da forma tradicional: desenvolvimento manual de um layout especfico para o programa com XHTML e CSS. Essa lgica resultava na produo de sites apenas para os grandes programas da emissora. Segundo Raimond et al. (2010a), a BBC deixava de aproveitar a cauda longa123 da imensa quantidade de contedos produzidos de forma distribuda em centenas de programas que no estavam presentes na web. A partir destes pressupostos, em 2007, foi lanado o site BBC Programmes, que rene os sites dos programas da emissora. Nele, cada programa possui uma URI que o identifica na web. Tambm foi desenvolvida uma ontologia para o Programmes, que definem um modelo de conceitos, como, por exemplo, uma Brand (traduzido por ns como franquia) possui Series (traduzido por ns como seriados) que possui Episodes (episdios). A ontologia ainda tem outros conceitos com vrios tipos de relacionamentos entre eles, que formam um modelo de organizao do contedo e que informa a projetos externos o que eles representam. Alm de possuir uma ontologia, o BBC Programmes ainda associa metadados aos programas atravs da tcnica de tagging. Essas tags so baseadas em um vocabulrio controlado e compartilhado (o Dublin Core), que possui predicados apropriados para produes editoriais, tais como autor, formato, gnero, licena e direitos. Segundo Raimond et al. (2010a, 2010b), o site Wildlife prov um identificador nico da web (URI) para cada espcie (e outros nveis da taxonomia), cada habitat e cada comportamento/adaptao. Desta maneira, o site mantm a lgica de utilizar URIs para identificar conceitos do mudo real, ao invs da lgica tradicional de identificar pginas (idem, 2010a). Em outras palavras: as URIs identificam recursos ao invs de identificar apenas uma pgina HTML, e esses recursos podem inseridos como URIs nas triplas RDF. Com uma URI para cada recurso, o site utiliza o sistema de triplas RDF para relacionar um conceito a outro. Assim, a URI do conceito leo associado ao conceito de
Cauda longa o termo utilizado para a situao em que a soma dos produtos menos consumidos em um determinado mercado pode acumular valor aproximado ou comparvel ao valor dos produtos mais vendidos. O fenmeno ocorre porque a diversidade de produtos com consumo baixo muito maior do que a dos produtos mais consumidos (os hits) (ANDERSON, 2006). O fenmeno pode ser representado por um grfico em um plano cartesiano, que toma a forma semelhante a uma cauda comprida, justificando assim o nome cauda longa.
123
132 vertebrados, atravs do uso de um predicado apropriado, definido pela ontologia. Como os programas da BBC possuem URI (pelo site Programmes), ento possvel utilizar triplas RDF para associar a produo destes programas s URIs do Wildlife. Seguindo a lgica da Web Semntica, de tornar as informaes compreensveis tanto por humanos quanto por mquinas, o site Wildlife oferece as pginas em dois formatos: em HTML (para leitura humana) e em RDF (para as mquinas). Para que isso seja possvel, basta que um desenvolvedor ou uma mquina (agente) acesse o endereo de uma pgina do Wildlife utilizando a extenso .rdf no final da URL. Este processo faz com que o servidor envie para o cliente um arquivo RDF, ao invs do arquivo HTML (ver Figura 45). O arquivo serializado no formato RDF/XML, ou seja, as triplas RDF so escritas com a sintaxe do XML. Este processo chamado de content-negotiation: um mecanismo do protocolo HTTP que permite ao cliente solicitar ao servidor o envio de outros tipos de arquivos a partir de um nico URI. Devido a essa possibilidade, os desenvolvedores afirmam que o Wildlife no necessita de uma API, pois o prprio site uma API (RAIMOND et al., 2010b).
Figura 45 esquerda, a pgina da espcie Tarntula. direita, a pgina serializada em RDF/XML
Ao analisarmos o arquivo RDF da espcie tarntula (Figura 45), foi possvel encontrar linhas de cdigo que relacionam a URI da espcie a URIs de vdeos disponibilizados no BBC Programmes. Na Figura 46, mostrado um trecho deste arquivo RDF/XML com duas triplas combinadas para um mesmo sujeito (que acaba formando um grafo). O sujeito representado
133 pela linha 1 (URI de um clipe de vdeo do site Programmes) e forma uma tripla com a URI da linha 2 (que indica o ttulo do vdeo) e outra tripla com a URI da linha 3 (que indica a relao do vdeo com a URI da tarntula).
Figura 46 Triplas RDF que descrevem um vdeo do site BBC Programmes
Para facilitar a compreenso do cdigo apresentado na Figura 46, poderamos dividir o cdigo XML em duas triplas RDF, como mostra a Figura 47:
Figura 47 Triplas RDF que descrevem um vdeo do site BBC Programmes
Uma forma ainda mais fcil de compreender essas relaes a partir de um grafo. Desenvolvemos na Figura 48 um grafo que representa as relaes entre as triplas RDF:
134
Figura 48 Grafo das triplas que descrevem um vdeo do site BBC Programmes
Ainda sobre os triplos representados no cdigo XML da Figura 46, a combinao po: uma abreviao que identifica o endereo da ontologia do site Programmes (Programmes Ontology124), utilizada para definir termos (e seus relacionamentos) do universo dos programas da BBC, como o que um clipe, um seriado, um episdio etc. Ento, <po:Clip> significa que o sujeito em questo faz parte da classe Clip da ontologia do Programmes (de acordo com a ontologia, a classe Clip define clipes multimdia que fazem parte de episdios). Ou seja: o recurso identificado pela URI um clipe. J a combinao dc: uma abreviao para o endereo do vocabulrio Dublin Core125, utilizado para definir termos editoriais, como autoria, ttulo, ano de publicao etc. Ento, o cdigo <dc:title> um predicado definido pelo vocabulrio Dublin Core, que indica o ttulo do sujeito. Por fim, o cdigo <po:subject> um predicado da ontologia do site Programmes que relaciona um produto a um assunto. Na Figura 49, possvel observar que, na verso em HTML da pgina, o clipe de vdeo descrito pela tripla RDF disponibilizado no site de seu programa de origem ( direita da figura, no BBC Programmes) e tambm na pgina do Wildlife ( esquerda da figura).
124 125
Disponvel em: <http://www.bbc.co.uk/ontologies/programmes/2009-09-07.shtml>. Acesso em: 12 jan. 2012. Disponvel em: <http://purl.org/dc/elements/1.1/>. Acesso em: 12 jan. 2012.
135
Figura 49 Clipe de vdeo do BBC Programmes agregado pgina do Wildlife
As triplas RDF indicam s mquinas o tipo de relacionamento que existe entre o recurso (o conceito presente na pgina da Wildlife) e os clipes de vdeos do BBC Programmes. Esse relacionamento ocorre com a associao de URIs via triplas RDF, como visto na Figura 46. Porm, antes de expressar esse relacionamento em RDF, necessrio extrair conceitos do clipe de vdeo. Afinal, um clipe de vdeo pode ser agregado a outras pginas alm da pgina da espcie. Para a extrao destes conceitos, realizado o processo de tagging nestes clipes de vdeos (RAIMOND et al., 2010a). Os contedos do Wildlife no so constitudos apenas por vdeos do BBC Programmes. A maior parte das mais de mil pginas do Wildlife possui descries textuais sobre o assunto tratado. Para que isso pudesse ser possvel, o sistema foi projetado para reaproveitar contedos da web de forma automatizada, mais especificamente da Wikipedia. Para Oliver (2010), esse reaproveitamento benfico para ambos os lados, pois se a BBC tem a vantagem de reaproveitar contedos moderados por uma comunidade com milhes de usurios, a Wikipedia, por sua vez, recebe em troca o constante enriquecimento de seus contedos por parte de profissionais da BBC, que se preocupam em manter a qualidade das informaes que reaproveitam. Para facilitar a integrao automatizada entre os contedos do Wildlife e da Wikipedia, os desenvolvedores decidiram padronizar as URIs do site de acordo com os
136 mesmos identificadores utilizados pela enciclopdia (RAIMOND et al., 2010b). Tomamos como exemplo a espcie leo, que possui os seguintes identificadores nos respectivos sites: Endereo utilizado pela Wikipedia: http://en.wikipedia.org/wiki/Lion Endereo utilizado pelo Wildlife: http://www.bbc.co.uk/nature/life/Lion
Essa sincronizao de identificadores com a Wikipedia realizada com o apoio do projeto DBpedia, que recupera os dados estruturados que esto armazenados na Wikipedia e os publicam em RDF. Em outras palavras, o Wildlife adota a DBpedia como um vocabulrio controlado de termos, o que facilita a identificao de recursos e a interoperabilidade com outros projetos da Linked Data (SCOTT, 2010). Os identificadores da DBpedia tambm so utilizados como vocabulrio padro para o processo de tagging aplicado aos clipes de vdeos oriundos do BBC Programmes (SCOTT, 2009; RAIMOND et al., 2010a). Os nomes de espcies definidos pela Wikipedia acabam por descrever o significado dos clipes de vdeos. Desta maneira, possvel agregar automaticamente em uma pgina do Wildlife tanto as informaes da Wikipedia quanto os vdeos do BBC Programmes sobre uma determinada espcie, pois ambos utilizam o mesmo identificador (SCOTT, 2009). Alm da Wikipedia, o site tambm reaproveita contedos de outras fontes, como os dados sobre conservao de animais da ONG WWF (World Wild Life)126, as classificaes sobre comportamentos e habitats do site "Animal Diversity Web"127 do Museu de Zoologia da Universidade de Michigan, e, por fim, da lista vermelha de animais que correm perigo de extino organizada pela ONG IUCN (International Union for Conservation of Nature)128 (SCOTT, 2009; RAIMOND et al., 2010a). Raimond et al. (2010b) ainda explicam que parte do contedo editorial da BBC continua sendo produzido sem seguir os princpios da Web Semntica. Por isso, para que seja possvel aproveitar estes contedos, a emissora tambm aplica tags a este contedo, baseados no vocabulrio da DBpedia. Desta forma, as pginas do Wildlife passam a agregar notcias e reportagens da BBC, alm dos vdeos do Programmes e dos contedos de outros sites da web. A ontologia Wildlife foi escrita em RDF e disponibilizada na web para acesso pblico129. Nela, foi estruturado um modelo para representar conceitos e relacionamentos entre as espcies e os outros nveis da taxonomia biolgica, alm dos conceitos de habitats,
126 127
http://www.worldwildlife.org/science/data/item1872.html http://animaldiversity.ummz.umich.edu/site/index.html 128 http://www.iucnredlist.org/ 129 http://www.bbc.co.uk/ontologies/wildlife/
137 comportamentos/adaptaes, biorregies e status de conservao (DODDS; SCOTT, 2010). Dessa maneira, a ontologia se torna o modelo de estruturao do site, pois a criao dinmica de pginas respeitam esse modelo. Oliver (2010) apresenta um grfico (Figura 50) que simplifica o funcionamento do sistema de publicao dinmico e semntico do Wildlife.
Figura 50 Camadas que fazem o fluxo de publicao dinmica e semntica do BBC Wildlife (OLIVER, 2010b, traduo nossa)
O grfico muito semelhante a outro que explica o funcionamento do site BBC World Cup 2010. Nele, possvel observar trs camadas: a primeira, representada por fotografias de animais, a camada de contedos armazenados em repositrios, produzidos por programas da BBC e descritos com metadados pelo processo de tagging. Na segunda camada, o modelo de conceitos e de seus relacionamentos definidos na ontologia, que determina a estrutura e a navegao do site. Aps a associao entre as tags dos contedos e o modelo da ontologia, so criadas pginas que recebem apenas os contedos selecionados pelo modelo da ontologia e, finalmente, apresentadas para os usurios. Alm das pginas HTML, tambm so criados os arquivos em RDF/XML. Segundo Dodds e Scott (2010), autores da ontologia, o desenvolvimento da mesma teve o cuidado de manter condies para que no futuro ela possa se inter-relacionar a outras ontologias especializadas, tais como as especializadas em ecologia, bioinformtica ou outras cincias, permitindo a interoperabilidade de dados, que, de certa maneira, funcionam como uma expanso do modelo Wildlife.
138 O site Wildlife um projeto de grande envergadura, tanto em relao quantidade de informaes quanto complexidade das tecnologias empregadas. Por isso, para que possamos melhor compreender o funcionamento das tecnologias semnticas, recapitulamos os principais pontos da explicao desenvolvida at o momento e listamos logo abaixo, de forma resumida: O site possui um vocabulrio (lista de termos) para as espcies e para os outros nveis da taxonomia. Tais termos so oriundos do esquema de nomes utilizados pela Wikipedia, atravs do projeto DBpedia. Os clipes de vdeos so oriundos dos documentrios produzidos pelos programas da BBC, e passam por processo de tagging, no tipo vocabulrio controlado, pois so utilizados os termos da DBpedia. O modelo da ontologia do Wildlife define conceitos (e relaes entre estes conceitos) para o domnio natural: nveis da classificao biolgica, habitats, comportamentos/adaptaes e biorregies. Este modelo se torna a estrutura de organizao e navegao do site. O Wildlife monta pginas dinmicas de acordo com o modelo da ontologia. Para as espcies, os conceitos so delimitados pelos termos da DBpedia. J os conceitos de habitats, comportamentos/adaptaes e biorregies so definidos de acordo com os dados de outros sites da web (ex.: WWF). As pginas dinmicas agregam diversos contedos relacionados ao conceito, de modo automtico. A relao entre contedos (textos, udios, vdeos) e conceitos ocorre pela comparao entre os metadados associados aos contedos e o modelo da ontologia. O site Wildlife foi inserido no escopo do BBC Nature, um portal de contedos editoriais sobre a temtica natureza. Notcias, reportagens e blogs do portal e de outros sites da BBC reaproveitam os contedos do Wildlife para complementar e contextualizar as informaes jornalsticas, assim como o material jornalstico tambm enriquece as pginas do Wildlife. Por fim, o mecanismo de content-negotiation permite s mquinas solicitarem ao servidor do Wildlife que, ao invs de uma pgina HTML, seja enviado um arquivo serializado RDF/XML, e isso possibilita o compartilhamento destes contedos com as pginas da BBC e com outras iniciativas da Linked Data.
139 Finalizamos aqui a descrio do segundo caso estudado. No prximo tpico, passamos para a anlise das contribuies das tecnologias identificadas, baseando-nos nas categorias do JDBD propostas por Barbosa (2007, 2008a). 3.3.5 Contribuies das tecnologias semnticas ao atual paradigma do JDBD Ao associarmos os depoimentos dos desenvolvedores da BBC com as categorias de anlise elencadas por Barbosa (2007, 2008a), o sistema de publicao semntico apresentou possibilidades de potencializao em grande parte das categorias, principalmente na de automatizao. A seguir, realizamos uma anlise em cada categoria do JDBD baseados nos dois casos estudados. 3.3.5.1 Dinamicidade Assim como ocorreu no primeiro caso estudado, o site BBC Wildlife apresentou alto nvel de dinamicidade, embora atualmente grande parte dos sites que utilizam BDs j possam ser considerados sistemas bastante dinmicos, devido lgica da separao entre contedo e apresentao, pois tal separao exige um sistema dinmico de publicao. A dinamicidade, no caso do Wildlife, potencializada devido autonomia que o sistema semntico tem em decidir como as entidades devem ser relacionadas entre si e, em consequncia, como os menus devem ser criados. Assim, da mesma forma como ocorreu no caso estudado anteriormente (BBC World Cup 2010), a dinamicidade no sistema semntico se aplica no apenas nas operaes mecnicas de publicao, mas tambm nas operaes mais complexas de tomada de deciso. A potencializao da dinamicidade est diretamente relacionada prxima categoria: a da automatizao. 3.3.5.2 Automatizao A automatizao total na publicao do contedo do site. Assim como o primeiro caso estudado, o sistema do BBC Wildlife ainda exige a operao manual de associao dos contedos aos metadados (tags), mas, aps essa operao, a publicao e a organizao das pginas das espcies e das pginas agregadoras apresentam automatizao total, tanto nos contedos (mdias, ttulos, descries, estatsticas etc.) quanto na estrutura de navegao (listas dinmicas de links).
140 Nos sistemas tradicionais, a anlise das tags realizada com uma estratgia de comparao sinttica (ex.: semelhana ou igualdade das sintaxes). A comparao sinttica pode ser ambgua, pois compara igualdade de palavras, no de significados. No caso do site Wildlife, utilizada uma abordagem semntica no processo de comparao entre as tags e o modelo de conceitos (ontologia), resultando em inferncias que maximizam a autonomia das mquinas no processo de publicao. 3.3.5.3 Flexibilidade O caso estudado demonstrou que as produes de equipes diferentes e dispersas podem ser reunidas de forma automtica em um mesmo produto, o que torna o processo produtivo mais flexvel do que uma produo centralizada. Os produtos atuais do JDBD que no utilizam tecnologias semnticas tambm permitem a produo descentralizada com o uso de sistemas gerenciadores de contedo (CMS); porm, geralmente exigem o emprego de um mesmo CMS entre as equipes. No sistema semntico, os contedos podem ser armazenados em diferentes bases de dados, e ainda assim serem integrados, porm, desde que apresentem certas condies para a integrao, como o fornecimento de metadados (tags) ou de verses serializadas do RDF. Outra contribuio flexibilidade o fato de o site deixar de utilizar o tradicional menu centralizado e imutvel, e passar a adotar as prprias pginas como recurso de navegao, ou seja, o site possui uma navegao contextual, que pode ser reorganizada com a mudana do modelo da ontologia. Consideramos essa caracterstica como um enriquecimento da flexibilidade na estrutura e na navegao. 3.3.5.4 Inter-relacionamento/Hiperlinkagem Na Web Semntica, o inter-relacionamento automatizado entre contedos baseado em significados, e no apenas da igualdade de sintaxes entre palavras-chaves, o que maximiza a qualidade desses relacionamentos. As inferncias realizadas com o inter-relacionamento baseado em ontologias permitem que o sistema origine colees de conceitos relacionados ao assunto da pgina, gerados no formato de listas de links contextualizados, que funcionam como menus de navegao para outras pginas, maximizando assim a hiperlikagem.
141 3.3.5.5 Densidade informativa Consideramos que as listas contextualizadas de links, que funcionam como menus nas pginas, aumentam a densidade informativa da matria, pois alm de servirem como recurso de navegao, tambm informam ao usurio que o determinado conceito possui certas caractersticas, como no caso da pgina da espcie leo, mostrada na Figura 37, em que as listas de links da parte inferior da pgina, ao mesmo tempo em que servem de menu para navegao, tambm informam que o leo pode viver em cinco habitats alm da savana africana, tais como o deserto, a floresta mediterrnea ou as pastagens alagadas. Ento, neste caso, a qualidade da categoria de inter-relaiconamento/hiperlinkagem contribui para a densidade informativa do produto. Alm disso, a densidade informativa foi enriquecida com a convergncia de contedos agregados de diferentes sites internos e externos BBC; afinal, a densidade informativa no diz respeito apenas quantidade de informaes, mas tambm a diversidade das mesmas. 3.3.5.6 Diversidade temtica Assim como no primeiro caso estudado, no site Wildlife h a predominncia de um tema: o mundo natural. Entretanto, as pginas dedicadas s espcies demonstraram capacidade de agregao de diversos contedos relacionados a um tema, como no caso da caixa de notcias para a espcie leo, ou ainda na formulao automtica de colees de vdeos, que podem tratar sobre temas distintos que mencionam o mesmo animal. Em relao s listas dinmicas de links contextualizados ao conceito tratado na pgina, que funcionam como menus, podemos consider-las uma maneira de aumentar a diversidade temtica, j que a ontologia auxilia o sistema a descobrir tpicos diversos em relao ao conceito tratado na pgina, como, por exemplo, as caractersticas do animal. 3.3.5.7 Visualizao Consideramos que na categoria de visualizao no houve contribuio relevante em relao ao que j praticado em produtos da web sinttica. As pginas seguem a esttica base de dados: so layouts formados por imagens, textos, caixas e links com dimenses delimitadas pelos dados das BDs.
142 3.3.5.8 Convergncia O Wildlife agrega contedos de diferentes formatos, como textos, udios e vdeos. Em um primeiro momento, tal situao poderia caracterizar uma contribuio da Web Semntica categoria da convergncia. Porm acreditamos que a convergncia se destaca no produto estudado devido a outra questo que vai alm da convergncia de mdias: a capacidade do sistema semntico de convergir contedos oriundos de diferentes fontes da web. As pginas so espaos agregadores de contedos externos: vdeos do BBC Programmes, descries e identificadores da Wikipdia via DBpedia, notcias e reportagens da BBC News. Essa caracterstica demonstra que a unio entre identificadores nicos e consistentes (URI) com um modelo que define conceitos e relacionamentos (ontologia) na Web Semntica uma combinao que potencializa a capacidade de compartilhamento, pois facilita a interoperabilidade e evita as ambiguidades.
3.4 Avaliao geral sobre o uso das tecnologias semnticas no jornalismo digital Acreditamos que as funes das tecnologias semnticas, apresentadas nos casos BBC World Cup 2010 e BBC Wildlife, fazem parte do conceito do Jornalismo Digital em Base de Dados. Afinal, os sistemas apresentados em ambos os casos tambm tiveram como funo a organizao de contedos que j estavam previamente armazenados em bases de dados tradicionais. As principais operaes das tecnologias semnticas ocorreram em uma camada acima dos contedos armazenados: a dos metadados. Por isso, no jornalismo digital, Web Semntica e bases de dados relacionais podem ser complementares, da mesma forma que os documentos hipertextuais em HTML continuaram existindo com o surgimento das BDs. A partir dos casos estudados, observamos que as tecnologias semnticas podem contribuir com alguns avanos em determinadas funes desempenhadas pelos atuais sistemas em bases de dados. Para fins de comparao, recuperamos uma afirmao de Palacios (2003), de que as caractersticas do jornalismo digital no so necessariamente rupturas em relao s prticas tradicionais do impresso, da TV e do rdio, pois so, na maioria, continuidades e potencializaes. Como exemplo, ele cita que a caracterstica da multimidialidade no suporte digital de certa forma uma continuidade, j que a televiso j fazia a convergncia entre imagem, som e texto. Da mesma forma, a caracterstica hipertextualidade j ocorria antes da web, em produtos armazenados em CD-ROM. O que a internet e a web fazem potencializar tais caractersticas, devido ao aproveitamento de recursos tcnicos que as redes digitais
143 oferecem. Para Palacios, a especificidade do jornalismo digital est nestas potencializaes das caractersticas, mas no apenas de forma isolada: a especificidade est, principalmente, na combinao das caractersticas potencializadas. Conclumos que, neste caso apresentado, as caractersticas do JDBD podem ser potencializadas em determinados contextos, devido, principalmente, combinao das mesmas com a eficiente automatizao do sistema semntico. Sabemos que os atuais produtos digitais em bases de dados relacionais podem ser automatizados e muitas vezes dispensam as operaes manuais (automatizao total). Porm, a Web Semntica se coloca como soluo vantajosa em relao ao atual cenrio, principalmente devido ao uso de ontologias, que enriquecem a qualidade da automatizao no gerenciamento de informaes. Como exemplo, ilustramos o caso do site Google News130, que apresenta processo de automatizao total (BARBOSA, 2007). O site apresenta notcias procedentes de diversas fontes e as organiza em listas de acordo com determinadas editorias. O sistema utiliza algoritmo prprio do Google para associar palavras-chaves s notcias publicadas nos ltimos 30 dias (DONG, SMITH e BUCHANAN, 2011). Por mais que seja um sistema automatizado, e por mais que seja um servio eficiente ao apresentar resultados relevantes em relao pesquisa feita pelo usurio, o Google News ainda apresenta falhas na identificao de significados. Para ilustrao, realizamos um teste (ANEXO A) na verso norte-americana do site: clicamos no link Rio Grande do Sul (opo oferecida dinamicamente no menu do Google News norte-americano) para listar notcias relativas ao estado gacho. O site retornou diversas notcias que no tinham relao com a palavra-chave da pesquisa, devido falha no reconhecimento de conceitos. Entre as notcias listadas, encontramos os ttulos Reading mayor chooses Lenin Agudo for community-development director" e Garibaldi wins Obispo concession at Sonora Lottery, o que demonstra que o site falha ao considerar que os termos Agudo (um sobrenome na primeira chamada) e Garibaldi (um nome de empresa na segunda chamada) sejam nomes de cidades do estado do Rio Grande do Sul. Os algoritmos do Google foram eficientes para buscar em uma BD nomes de cidades do Estado do Rio Grande do Sul, mas falhou na identificao de significados dentro dos contedos das notcias, pois realizou apenas uma comparao sinttica entre palavras-chaves. Uma abordagem semntica neste sistema poderia evitar tais ambiguidades. Tratamos neste texto que os avanos da Web Semntica so continuidades e potencialidades do que j encontrado nos atuais produtos do Jornalismo Digital em Base de
130
http://news.google.com.
144 Dados. Porm, acreditamos que seja possvel indicar uma possvel ruptura que a Web Semntica traz ao Jornalismo Digital em Base de Dados: a da interoperabilidade automatizada entre diferentes sites e servios. Tal caracterstica ganha importncia com o massivo crescimento da quantidade de dados publicados no ciberespao, que resulta em duplicidades nos processos de produo e reproduo da informao. A interoperabilidade automatizada, que permite o reaproveitamento de contedos em um ambiente que produz dados de forma massiva, pode ser vantajosa para as empresas jornalsticas, pois poupa recursos na produo, e para os jornalistas, pois poupa esforos na produo de algo j existente. Sabemos que, na lgica do mercado capitalista, seria utpico esperar que empresas jornalsticas compartilhassem os seus esforos na produo conjunta e complementar das mesmas notcias. Porm, como o caso estudado demonstrou, possvel reaproveitar informaes originadas em diferentes projetos da web que sejam abertas ao compartilhamento e que possam ser confiveis, tais como os outros sites da mesma empresa, relatrios e estatsticas de ONGs e fontes de dados oficiais, como no caso das pginas das espcies no BBC Wildlife, que reaproveitava automaticamente contedos oriundos da Wikipdia e da ONG World Wildlife Fund (WWF). Alm do reaproveitamento de contedos de terceiros, os casos demonstraram que o reaproveitamento pode ocorrer entre diferentes produtos da mesma empresa, como no caso das notcias do principal site de notcias da BBC e dos artigos de diferentes blogs, que alimentavam (e enriqueciam) as pginas dos times e dos jogadores no BBC World Cup 2010. Para que essa ruptura venha a se consolidar na prtica jornalstica, concordamos com a viso de Berners-Lee (2006): necessrio que surjam mais iniciativas em que produtores de contedos se adaptem aos padres da Web Semntica, pois s assim possvel uma interoperabilidade eficiente. Sem padro, no h convenes; sem convenes, no h comunicao entre os sites e servios independentes. Alm da adoo de padres, outra prtica recomendada por Berners-Lee (2006) a de se manter a cultura da abertura de dados e de criar interconexes entre repositrios, como ocorre no projeto Linked Data, que cresce significativamente a cada ano. Outra condio (bastante lgica) para a consolidao desta ruptura a do jornalismo comear a explorar as tecnologias semnticas com o desenvolvimento de produtos compatveis com esta proposta. Para isso, seria necessria uma aproximao maior dos campos do Jornalismo, da Cincia da Informao e da Cincia da Computao.
145
CONSIDERAES FINAIS
A proposta do presente trabalho foi a de analisar a aplicao da Web Semntica em dois produtos jornalsticos, o BBC World Cup 2010 e o BBC Nature, a fim de se compreender como esta tecnologia pode contribuir com o jornalismo digital, principalmente na organizao e no gerenciamento das informaes jornalsticas. No decorrer do referencial terico, vimos que a base de dados a tecnologia estruturante dos produtos digitais informacionais de nosso tempo. A necessidade de se armazenar grandes quantidades de dados no a nica razo pela adoo das BDs como lgica estruturante. Alm de estrutura, elas so recursos tcnicos que potencializam o gerenciamento dos dados at ento realizados pelos humanos. Encurtam o tempo, maximizam a eficcia de operaes, enriquecem as possibilidades de combinaes entre dados e informaes. Com o desenvolvimento do jornalismo digital, essa prtica profissional passou a adotar as bases de dados como estrutura dos produtos jornalsticos. Na nossa anlise, percebemos que as tecnologias semnticas potencializam algumas das funes atualmente desempenhadas por bases de dados relacionais no jornalismo digital. Conclumos que duas categorias do JDBD se mostraram mais propcias a serem potencializadas: a automatizao e a convergncia. Em relao automatizao, destacamos as ontologias, que garantem s mquinas a capacidade de identificar conceitos, de relacion-los eficientemente e de gerar inferncias. Esta ltima implicao, a da gerao de inferncias, conferem aos sistemas semnticos a vantagem da autonomia s mquinas na tomada de decises, como, por exemplo, em como criar automaticamente novos menus para determinados contextos. Na categoria da convergncia, que tomamos aqui como um conceito maior do que a simples convergncia de mdias em um suporte, a Web Semntica apresenta uma importante contribuio, pois, graas URI, que identifica recursos da web sem ambiguidades, e aos vocabulrios, que padronizam termos e conceitos, possvel convergir em um mesmo produto contedos de diferentes formatos, oriundos de diferentes fontes, mas que tratam do mesmo conceito. Por fim, consideramos que a Web Semntica pode vir a representar um salto ainda maior do que uma potencializao de caractersticas at ento exploradas. Esta possvel ruptura seria a interoperabilidade automatizada. Ela permite que diferentes sites (que estejam formatados na lgica da Web Semntica) troquem entre si dados e informaes de
146 maneira automatizada, a partir de associaes de conceitos definidos por vocabulrios ou ontologias compartilhados. Acreditamos que esse um salto significativo porque resulta em diversas potencializaes: a) A diversidade de fontes de dados (tanto em quantidade quanto em tipo) pode enriquecer o produto informacional em diferentes categorias, como no interrelacionamento/hiperlinkagem, na diversidade informativa e na diversidade temtica. Foi o que ocorreu nas paginas das espcies do Wildlife: para cada espcie, uma combinao de contedos provenientes de diferentes sites da web formava uma pgina mais rica em cada uma das trs categorias citadas. b) A convergncia de dados oriundos de fontes diversificadas aumenta em grande proporo a vantagem do reaproveitamento de dados e informaes produzidas por terceiros131. O reaproveitamento pode resultar em trs benefcios evidentes: no enriquecimento do produto, como no caso do Wildlife, que teve as mais de mil pginas alimentadas por informaes especializadas que eram constantemente atualizadas pelas fontes de dados; na rotina produtiva dos jornalistas, j que o reaproveitamento libera tempo de produo e permite aos profissionais se dedicarem a outros projetos, e na integrao de equipes, j que o reaproveitamento pode ocorrer com informaes factuais recm publicadas por outras equipes da mesma organizao. c) O constante compartilhamento entre vrios projetos complementares entre si podem formar uma base de conhecimento compartilhada que cresce de forma colaborativa. o que ocorre hoje no Linked Data, em que diferentes projetos, geralmente especializado em determinados temas, permitem a consulta a seus dados com pesquisas query via SPARQL. Em outras palavras: como se os projetos formassem uma grande base de dados distribuda e compartilhada. A interoperabilidade ganha destaque na Web Semntica porque, ao contrrio da maioria dos sistemas em base de dados relacionais, nela h uma premncia pelo uso de padres abertos, o que facilita a comunicao entre sites e servios que utilizam os mesmos padres. Outra razo o modelo utilizado na Web Semntica de se compartilhar conceitos de predicados entre os sites, pois essa lgica evita o problema das conceituaes conflitantes entre bases de dados relacionais, que so projetadas com seus predicados
131
Quanto questo da confiabilidade da fonte, um tema que merece discusses, mas ao refletirmos nos casos estudados, conclumos que o reaproveitamento pode ser aplicado em fontes seguras, como outros sites da mesma organizao, de organizaes parceiras, de ONGs consolidadas e de fontes oficiais.
147 prprios e arbitrrios. Sem uma conveno de conceitos e relacionamentos, a interoperabilidade dificultada. Tratamos a interoperabilidade automatizada como uma potencial ruptura no jornalismo digital. Porm, reforamos que ainda potencial. Para que ela de fato seja uma ruptura, preciso que certas condies sejam satisfeitas. A mais bsica delas a popularizao de produtos jornalsticos que de fato aproveitam as tecnologias semnticas. Outra condio a da proliferao de repositrios de dados abertos e apropriados para a lgica da Web Semntica, como ocorre com o projeto da Linked Data. Por fim, uma condio necessria para o desencadeamento desta ruptura seria o desenvolvimento de produtos jornalsticos criativos, que saibam como explorar o reaproveitamento de dados. Defendemos que os dois casos estudados nesta pesquisa so exemplos que satisfazem estas condies. O resultado evidente: alm dos nmeros e estatsticas apresentados pelos desenvolvedores em seus depoimentos publicados na web, tambm temos como prova uma experincia relativamente simples, porm reveladora, realizada por ns: em uma busca pelo termo lion no site de busca do Google (verso em ingls), o resultado indicou a existncia de mais de 78 milhes de sites, e a pgina da espcie leo no BBC Wildlife apareceu em stimo lugar (ANEXO J). Realizamos outro experimento, com resultado ainda mais significativo: buscamos pelos termos World Cup 2010, que indicou mais de 325 milhes de sites, e o site BBC World Cup 2010 aparece em quarto lugar, perdendo apenas para as duas pginas oficiais da FIFA e a pgina da Wikipedia (ANEXO K). Se a Web Semntica apresenta tantas contribuies, se as tecnologias semnticas j existem h aproximadamente uma dcada e se j h exemplos de sucesso na web, ento no teramos como fugir da inevitvel questo: por que ela no explorada mais intensamente pelo jornalismo digital? Sabemos que as empresas jornalsticas no decidem adotar as novas tecnologias de forma sincronizada. A adoo gradativa, e algumas das empresas nem sequer aproveitam caractersticas das primeiras geraes do jornalismo digital, como a hipertextualidade em narrativas. No caso da Web Semntica, temos um agravante: a adoo destas tecnologias pode ser um processo difcil e demorado por parte dos desenvolvedores, devido a diversas razes relacionadas a um sistema complexo e ainda em processo de maturao. Para Kashyap et al. (2008), a Web Semntica j apresenta na prtica vrias vantagens e qualidade, mas tambm apresenta problemas, que podem se tornar obstculos para o seu progresso, como, por exemplo: a curva de aprendizagem sobre o funcionamento do RDF e da OWL; problemas de integrao entre servios; a dificuldade em obter acordos sobre os conceitos dos termos definidos em ontologias; iniciativas privadas que se recusam a
148 compartilhar seus conhecimentos (ontologias); a predominncia de contedos textuais e no estruturados; os interesses comercias, entre outros possveis empecilhos. No queremos incorrer aqui em um futurismo superficial. No temos certezas sobre qual ser o futuro da Web Semntica, pois, como afirmam Kashyap et al., apenas o tempo dir se a proposta ter sucesso ou no. Entretanto, ao mirarmos para o passado e refletirmos sobre o futuro, podemos presumir que este sistema poder vir a apresentar processos de construo semnticas mais simples, assim como ocorreu com a prpria World Wide Web, que cresceu em quantidade de contedos produzidos com o aparecimento de sites com sistemas publicadores de contedos, como os blogs e os wikis. Algumas propostas de facilitar a anotao semntica de contedos j existem, como no caso dos Microformats e do RDFa, que so duas formas de inserir pequenos cdigos dentro do HTML, a fim de se indicar s mquinas os significados de determinadas partes do texto. Como exemplo, podemos citar um fato recente no jornalismo: a International Press Telecommunications Council (IPTC), influente consrcio internacional de agncias de notcias e empresas jornalsticas, tais como a Agence France-Presse (AFP), a The Associated Press (AP) e o The New York Times, lanou oficialmente em outubro de 2011 uma linguagem de marcao baseada em RDFa, chamada de rNews (IPTC, 2011), que dever permitir aos jornalistas estruturarem minimamente os significados presentes em seus contedos jornalsticos, de acordo com a lgica da Web Semntica. Nestes ltimos anos, as mquinas vm desempenhando um papel substancial no gerenciamento da informao. Tomamos como comprovao dessa afirmativa a proliferao de sistemas estruturados em bases de dados. As mquinas se tornam ferramentas que liberam o potencial criativo do humano, pois assumem em nosso lugar as operaes mecnicas e repetitivas, dignas de uma mquina. A proposta da Web Semntica de se firmar como uma soluo neste sentido: deixar para as mquinas a tarefa tediosa de buscar e organizar grandes quantidades de dados e informaes, e deixar para os humanos as funes dignas de um ser racional e criativo: as de anlise, reflexo e criao.
149
REFERNCIAS BIBLIOGRFICAS
ANDERSON, Chris. A cauda longa: do mercado de massa para o mercado de nicho. Rio de Janeiro: Elsevier, 2006. AKERKAR, Rajendra. Foundations of the Semantic Web: XML, RDF & Ontology. Nova Dli, ndia: Narosa, 2009. ALVES, R. C. V. Web Semntica: uma anlise focada no uso de metadados. 2005. 180 f. Dissertao (Mestrado em Cincia da Informao) Faculdade de Filosofia Cincias, Universidade Estadual Paulista, Marlia, 2005. ANTONIOU, Grigoris; HARMELEN, Frank van. A Semantic Web Primer. 1 ed. EUA: MIT Press, 2004. AUDY, Jorge Luis Nicolas; ALEXANDRE, Gilberto Keller de Andrade e. Fundamentos de Sistemas de Informao. Porto Alegre: Bookman, 2005. BARBOSA, Suzana. Ainda h muito o que se explorar na apurao dos bancos de dados, diz professora. Entrevista concedida a Amanda Lopez para o blog Jornalismo Digital, online, 2011. Disponvel em: <http://www.jornalismodigital.org/2011/08/ainda-hamuito-o-que-se-explorar-na-apuracao-dos-bancos-de-dados-diz-professora/>. Acesso em: 12 nov. 2011. BARBOSA, Suzana. Jornalismo Digital em Base de Dados (JDBD) - Um paradigma para produtos jornalsticos digitais dinmicos. Tese de doutorado. Facom/Ufba, Salvador, 2007. BARBOSA, Suzana. Modelo JDBD e o ciberjornalismo de quarta gerao. In: Congreso Internacional de Periodismo en la Red, 3., Madrid: Facultad de Periodismo da Universidad Complutense de Madrid, 2008a. Disponvel em: <http://grupojol.wordpress.com/2011/05/07/barbosa-2008/>. Acesso em: 12 jun. 2011. BARBOSA, Suzana. As bases de dados no curso da convergncia jornalstica: uma anlise preliminar a partir do modelo JDBD. 2008b. Disponvel em: <http://grupojol.files.wordpress.com/2011/05/2008_barbosa_base_de_dados.pdf>. Acesso em: 14 jan. 2012. BARBOSA, Suzana. Jornalismo digital e bases de dados: mapeando conceitos e funcionalidades. In: FIDALGO, A.; RAMOS, F.; OLIVEIRA, J. P.; Mealha, . (Orgs.). Livro de Actas 4 Congresso da Associao Portuguesa de Cincias da Comunicao (SOPCOM). 2005. Disponvel em: <http://www.bocc.ubi.pt/pag/barbosa-suzana-jornalismodigital-bases-dados.pdf>. Acesso em: 16 nov. 2011. BERNERS-LEE, Tim. The World Wide Web: Past, Present and Future. W3C, 1996. Disponvel em: <http://www.w3.org/People/Berners-Lee/1996/ppf.html>. Acesso em: 21 nov. 2011.
150 BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The Semantic Web. Scientific American Special Online Issue, abril de 2002, p. 24-30. Disponvel em: <http://cms.brookes.ac.uk/modules/notes/112_SemWeb.pdf>. Acesso em: 28 nov. 2010. BERNERS-LEE, Tim. Linked Data. Design Issues, W3C. 2006. Disponvel em: <http://www.w3.org/DesignIssues/LinkedData.html>. Acesso em: 11 jan. 2012. BERNERS-LEE, Tim. Giant Global Graph. Decentralized Information Group (DIG), 2007. Disponvel em: <http://dig.csail.mit.edu/breadcrumbs/node/215>. Acesso em: 21 nov. 2011. BERNERS-LEE. Tim Berners-Lee on the next Web. Palestra no TED, 2009. Disponvel em: <http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html>. Acesso em: 29 nov. 2011. BERTOCCHI, Daniela. Ciberjornalismo e Web Semntica: Consideraes sobre o uso de tags em narrativas jornalsticas digitais. In: 7o. SBPJor - Encontro Nacional de Pesquisadores em Jornalismo, 2009, So Paulo. Anais do 7o. SBPJor - Encontro Nacional de Pesquisadores em Jornalismo. BERTOCCHI, Daniela. Narrativas jornalsticas no contexto da web semntica. 2010. Anais do II Seminrio de Ciberjornalismo do Mato Grosso do Sul. BIZER, Christian; HEATH, Tom; BERNERS-LEE, Tim. Linked Data - The Story So Far. 2009. Disponvel em: <http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linkeddata.pdf>. Acesso em: 12 jan. 2012. BRANDO, Anarosa Alves Franco; LUCENA, Carlos Jos Pereira de. Uma Introduo Engenharia de Ontologias no contexto da Web Semntica. PUC-Rio. 2002. BRADSHAW, Paul. How to be a data journalist. Datablog, 2010. Disponvel em: <http://www.guardian.co.uk/news/datablog/2010/oct/01/data-journalism-how-to-guide>. Acesso em: 21 nov. 2011. BREITMAN, Karin. Web Semntica: A internet do futuro. Rio de Janeiro: LTC, 2005. BUENO, Francisco da Silveira. Minidicionrio da lngua portuguesa. So Paulo: FTD: LISA, 1996. CAIRO, Alberto. Interactividad en infografa de prensa. Artigo publicado no Malofiej 15. University of North Caroline, 2008. Disponvel em: <http://www.albertocairo.com/imagenes/2008/articulos/articulomalofiej.pdf>. Acesso em: 18 nov. 2011. CANAVILHAS, Joo. Webjornalismo: Consideraes gerais sobre jornalismo na web. Comunicao apresentada no I Congresso Ibrico de Comunicao. Universidade da Beira Interior - Portugal. 2001. Disponvel em: <http://www.bocc.ubi.pt/pag/_texto.php?html2=canavilhas-joao-webjornal.html>. Acesso em: 09 nov. 2011.
151 CANTAIS, Jaime; DOMINGUEZ, David; GIGANTE, Valeria; LAERA, Loredana; TAMMA, Valentina. An example of food ontology for diabetes control. In: WELTY, C.; GANGEMI, A. "Working notes of the ISWC 2005 workshop on Ontology Patterns for the Semantic Web", Galway, Irlanda, 2005. Disponvel em: <http://www.csc.liv.ac.uk/~floriana/PIPS/papers/FoodOntology.pdf>. Acesso em: 9 out. 2011. CECCONI, Carlos. W3C, o futuro da Web, HTML5. Palestra. 2010. Disponvel em: <http://www.youtube.com/watch?v=aeubheKRqj8>. Acesso em: 10 abr. 2011. CHANG, F.; DEAN, J.; GHEMAWAT, S.; HSIEH, W.; WALLACH, D.; BURROWS, M.; CHANDRA, T.; FIKES, A.; GRUBER, R. Bigtable: A Distributed Storage System for Structured Data. Disponvel em: <http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en //archive/bigtable-osdi06.pdf>. Acesso em: 7 fev. 2012. CODINA, Llus. Web 2.0, 3.0 y Web Semntica: Impacto en los sistemas de informacin. 2011. Disponvel em: <http://www.lluiscodina.com/>. Acesso em: dez. 2011. DANTAS, Mario. Tecnologias de Redes de Comunicao e Computadores. Rio de Janeiro: Axcel Books, 2002. DIAZ NOCI, Javier; SALAVERRA, Ramn. Manual de Redacin Ciberperiodstica. Barcelona: Ariel, 2003. DIMITROV, Marin. Metadata management for the BBC's 2010 World Cup site using OWLIM. Apresentao no European Semantic Technology Conference 2010. Video Lectures, 2010. Disponvel em: <http://videolectures.net/estc2010_dimitrov_utopwc/>. Acesso em: 27 jan. 2012. DODDS, Leigh; SCOTT, Tom. Wildlife Ontology. BBC, 2010. Disponvel em: <http://www.bbc.co.uk/ontologies/wildlife/2010-11-04.shtml>. Acesso em: 22 jan. 2012. DONG, L.; SMITH, R.; BUCHANAN, Bruce. NewsFinder: Automating na Artificial Intelligence News Service. Artigo apresentado na Twenty-Third IAAI Conference, 2011. Disponvel em: <http://www.aaai.org/ocs/index.php/IAAI/IAAI-11/paper/view/3446>. Acesso em: 12 fev. 2012. ESCOBAR, Maurcio; LEMKE, Ana Paula; RIBEIRO, Marcelo Blois. SemantiCore 2006 Permitindo o Desenvolvimento de Aplicaes baseadas em Agentes na Web Semntica. Estudo desenvolvido pelo Intelligent Systems Engineering Group da PUCRS, financiado pela Dell Computadores do Brasil Ltda. 2006. Disponvel em: <http://www.les.inf.pucrio.br/seas2006/papers/X072.pdf>. Acessado em: 20 mar. 2011. FARBIAZ, A.; BARBOSA, Suzana. A esttica base de dados e os modos diferenciados para visualizao da informao jornalstica. In: III Simpsio Nacional da ABCiber - Associao Brasileira de Pesquisadores em Cibercultura. So Paulo: ESPM, 2009. Disponvel em: <http://www.abciber.com.br/simposio2009/trabalhos/anais/pdf/artigos/5_jornalismo/eixo5_art 1.pdf >. Acesso em: 12 nov 2011.
152 FIDALGO, Antnio. Sintaxe e Semntica das Notcias Online: Para um Jornalismo Assente em Base de Dados. In.: LEMOS, A. L. M. (Org.); SILVA, J. M. (Org.); S, S. P. (Org.); PRYSTON, A. (Org.). Mdia.br. Livro da XII Comps - 2003. Porto Alegre: Sulina, 2004. GARTNER. Gartner Says Sales of Mobile Devices Grew 5.6 Percent in Third Quarter of 2011; Smartphone Sales Increased 42 Percent. Disponvel em: <http://www.gartner.com/it/page.jsp?id=1848514>. Acesso em: 18 nov 2011. GRUBER, Thomas R. A Translation Approach to Portable Ontology Specifications. Knowledge Acquisition. V. 5, n. 2, 1993, p. 199-220. Disponvel em: <http://tomgruber.org/writing/ontolingua-kaj-1993.pdf>. Acesso em: 10 out. 2011. HEBELER, John; FISHER, Matthew; Ryan, Blace; PEREZ-LOPEZ, Andrew; DEAN, Mike. Semantic Web Programming. Wiley Publishing: Indianapolis (EUA), 2009. JOHNSON, Steven. Cultura da interface: como o computador transforma nossa maneira de criar e comunicar. Rio de Janeiro: Jorge Zahar, 2001. KASHYAP, Vipul; BUSSLER, Christoph; MORAN, Matthew. Semantic Web: Semantics for Data and Services on the Web. Berlin, Heidelberg: Springer-Verlag Berlin Heidelberg, 2008. KIRYAKOV, A.; BISHOP, B.; OGNYANOFF, D.; PEIKOV, I.; TASHEV, Z.; VELKOV, R. The Features of BigOWLIM that Enabled the BBCs World Cup Website. Workshop em Semantic Data Management SemData@VLDB. 17 de set. de 2010. Disponvel em: <http://ceur-ws.org/Vol-637/paper6.pdf>. Acesso em: 27 jan. 2012. LAMMEL, Iuri. Padro HTML5: possveis efeitos no Jornalismo Digital. Anais do XXXIII Congresso Brasileiro de Cincias da Comunicao (Intercom). Set. de 2010. Disponvel em: <http://www.intercom.org.br/papers/nacionais/2010/resumos/R5-2173-1.pdf>. Acesso em: 07 fev. 2012. LARRONDO, Ainarra; MIELNICZUK, Luciana; BARBOSA, Suzana. Narrativa jornalstica e base de dados: discusso preliminar sobre gneros textuais no ciberjornalismo de quarta gerao. Artigo apresentado no VI Encontro Nacional de Pesquisadores em Jornalismo. So Paulo, 2008. Disponvel em: <http://sbpjor.kamotini.kinghost.net/sbpjor/admjor/arquivos/coordenada8lucianamielniczuk.p df >. Acesso em: 11 nov. 2011. LEO, Lucia. O Labirinto da Hipermdia: arquitetura e navegao no ciberespao. So Paulo: Iluminuras, 2001. LEMOS, Andr; LVY, Pierre. O futuro da internet: Em direo a uma ciberdemocracia planetria. So Paulo: Paulus, 2010. LOUKIDES, Mike. Data Science and data tools. In.: O'Reilly Radar Team. Big Data Now: Current Perspectives from OReilly Radar. E-book, edio para Kindle. EUA: OReilly, 2012.
153 MACHADO, Elias. O ciberespao como fonte para os jornalistas. 2002. Disponvel em: <http://www.bocc.ubi.pt/pag/machado-elias-ciberespaco-jornalistas.pdf>. Acesso em: 5 jun. 2011. MACHADO, Elias. O jornalismo digital em base de dados. Florianpolis: Calandra, 2006. MACHADO, E.; PALACIOS, M. Um modelo hbrido de pesquisa: a metodologia aplicada pelo GJOL. In.: Lago, Claudia e Benetti, Marcia. (Org.). Metodologia de pesquisa em jornalismo. Petrpolis: Vozes, 2007, p. 199-222. MANOVICH, Lev. Metadata, Mon Amour. 2002. Disponvel em: <http://www.manovich.net/TEXTS_07.HTM>. Acessado em: 15 jul. 2010. MANOVICH, Lev. Software takes command. 2008. Disponvel em: <http://softwarestudies.com/softbook/manovich_softbook_11_20_2008.pdf>. Acesso em: 18 nov. 2011. MANOVICH, Lev. The Language of New Media. 2001. Disponvel em: <http://ucsd.academia.edu/LevManovich/Papers>. Acesso em: 14 nov. 2011. MARTINS, Gilberto de Andrade. Estudo de Caso: uma estratgia de pesquisa. So Paulo: Atlas, 2006. MIELNICZUK, Luciana. Consideraes sobre interatividade no contexto das novas mdias. 2001. Disponvel em: <http://www.facom.ufba.br/jol/pdf/2001_mielniczuck_linkparatextual.pdf>. Acesso em: 12 out. 2005. MIELNICZUK, Luciana. Jornalismo na Web: uma contribuio para o estudo do formato da notcia na escrita hipertextual. Tese de doutorado Facom/Ufba, Salvador, 2003. MOREIRA, Carla Barbosa. Princpio de ligao Sintaxe/Semntica: Construes estativas. Dissertao (mestrado) apresentada ao Programa de Ps-Graduao em Letras da Universidade Federal de Minas Gerais. Belo Horizonte, 2000. NOCI, Javier Diaz (Org.) ; PALACIOS, Marcos (Org.) . Online journalism: research methods. A multidisciplinary approach in comparative perspective. Bilbao: Servicio Editorial de la Universidad del Pas Vasco., 2009. Disponvel em: <http://www.argitalpenak.ehu.es/p291content/es/contenidos/libro/se_indice_ciencinfo/es_ciencinf/adjuntos/journalism.pdf>. Acesso em: 03 dez 2011. O'DONOVAN, J. The World Cup and a call to action around Linked Data. BBC Blogs, 2010. Disponvel em: <http://www.bbc.co.uk/blogs/bbcinternet/2010/07/the_world_cup_and_a_call_to_ac.html>. Acesso em: 26 jan. 2012. OLAVSRUD, Thor. Berners-Lee Talks Up Semantic Web. InternetNews.com. Disponvel em: <http://www.internetnews.com/dev-news/article.php/3081191>. Acesso em: 07 fev 2012.
154 OLIVER, Silver. News Rewired. Youtube, 2010a. Disponvel em: <http://www.youtube.com/watch?v=bY5kONXROCY>. Acesso em: 14 dez. 2011. OLIVER, Silver. How the emergence of the semantic web changes our approach to information architecture. SlideShare, 2010b. Disponvel em: <http://www.slideshare.net/silveroliver/how-the-emergence-of-the-semantic-web-changesour-approach-to-information-architecture>. Acesso em: 11 jan. 2012. OLIVER, Silver. Mining the oil shale of journalism with semantic web technologies. 2011. Disponvel em: <http://blockslabpillar.com/2011/02/20/mining-the-oil-shale-ofjournalism-with-semantic-web-technologies/>. Acesso em: 14 jan. 2012. OLIVIERO, Carlos A. J. Faa um aplicativo: Banco de dados cliente/servidor com Delphi 6 Orientado a projeto. So Paulo: rica, 2002. OPEN CALAIS. About. Disponvel em: <http://www.opencalais.com/about>. Acessado em: 29 set. 2011. PALACIOS, Marcos. Jornalismo online, informao e memria: apontamentos para o debate. (2002b). Disponvel em: <http://www.facom.uba.br/jol/pdf/2002_palacios_informacaomemoria.pdf>. Acesso em: 08 out. 2006. PALACIOS, Marcos. Ruptura, Continuidade e Potencializao no Jornalismo Online: o Lugar da Memria. In: MACHADO, Elias & PALACIOS, Marcos (Orgs). Modelos do Jornalismo Digital, Salvador: Calandra, 2003. PALACIOS, Marcos; MIELNICZUK, Luciana; BARBOSA, Suzana; RIBAS, Beatriz; NARITA, Sandra. Um mapeamento de caractersticas e tendncias no jornalismo online brasileiro e portugus. Trabalho apresentado no XXV Intercom. Salvador, 2002. PAUL, Christiane. The Database as System and Cultural Form: Anatomies of Cultural Narratives. Online. Disponvel em: <www.cityarts.com/paulc/RISD/Paul_Database.doc>. Acesso em: 12 nov. 2011. PAVLIK, J. The Impact of Technology on Journalism. Journalism Studies, V. 1, N 2, 2000, p. 229237. Disponvel em: <http://www.tandfonline.com/doi/abs/10.1080/14616700050028226>. Acesso em: 8 fev. 2012. PIETROFORTE; LOPES. Semntica Lexical. In: FIORIN, Jos Luiz (org.). Introduo Lingustica. So Paulo: Contexto, 2003, p. 114 PRIMO, Alex. Quo interativo o hipertexto? : Da interface potencial escrita coletiva. Fronteiras: Estudos Miditicos, So Leopoldo, v. 5, n. 2, p. 125-142, 2003. RAMALHO, Rogrio Aparecido S. Web Semntica: aspectos interdisciplinares da gesto de recursos informacionais no mbito da Cincia da Informao. Dissertao (Mestrado em Cincia da Informao) Faculdade de Filosofia e Cincias, Universidade Estadual Paulista, 2006.
155 RAIMOND, Yves; SCOTT, Tom; OLIVER, Silver; SINCLAIR, Patrick; SMETHURST, Michael. Use of Semantic Web technologies on the BBC Web Sites. In.: WOOD, David (ORG.). Linking Enterprise Data. EUA: Springer, 2010a. RAIMOND, Yves; SCOTT, Tom; SINCLAIR, Patrick; MILLER, Libby; BETTS, Stephen; Mcnamara, Frances. Case Study: Use of Semantic Web Technologies on the BBC Web Sites. In.: W3C. Semantic Web Use Cases and Case Studies. 2010b. Disponvel em: <http://www.w3.org/2001/sw/sweo/public/UseCases/BBC/>. Acesso em: 17 jan. 2011. RAYFIELD, J. BBC World Cup 2010 dynamic semantic publishing. 2010. Disponvel em: <http://www.bbc.co.uk/blogs/bbcinternet/2010/07/bbc_world_cup_2010_dynamic_ sem.htm>. Acesso em: 26 jan. 2012. RAYFIELD, J. BBC Dynamic Semantic Publishing [DSP]. 2012. Disponvel em: <http://www.slideshare.net/JemRayfield/dsp-bbcjem-rayfieldsemtech2011>. Acesso em: 11 jan. 2012. REESE, George. Database Programming with JDBC and Java. 2. ed. EUA: OReilly, 2000. RIBAS, Beatriz. Caractersticas da notcia na Web - consideraes sobre modelos narrativos. (Comunicao individual). II Encontro Nacional de Pesquisadores em Jornalismo - SBPJor, 2004. Disponvel em: <http://www.facom.ufba.br/jol/pdf/2004_ribas_caracteristicas_noticia_web.pdf>. Acesso em: 13 nov. 2011. RIBAS, Beatriz. Web Semntica e produo de notcias: anotaes para o estudo da aplicao da tecnologia ao campo do Jornalismo. 5 Encontro Nacional de Pesquisadores em Jornalismo - SBPJor. 2007.Disponvel em: <http://sbpjor.kamotini.kinghost.net/sbpjor/admjor/arquivos/coordenada_8_._beatriz_ribas.pd f>. Acessado em: 27 jun. 2010. RODRIGUES, Adriana Alves. Infografia interativa em base de dados no jornalismo digital. Dissertao de mestrado. Universidade Federal da Bahia, Salvador, 2009. ROGERS, Simon. Facts are sacred: the power of data. E-book, edio Kindle. _____: Guardian Books, 2011. SALAVERRA, Ramon. Redaccin periodstica en internet. Barcelona: EUNSA, 2005. SCHWINGEL, C. Ferramentas de publicao de contedos na internet no contexto do ciberjornalismo. In: CD ROM do XI Encontro de Professores de Jornalismo. So Paulo, 2008. Disponvel em: <http://www.facom.ufba.br/jol/pdf/Schwingel_2008_ENPJ.pdf>. Acesso em: 11 nov. 2011. SCHWINGEL, C. Jornalismo Digital de Quarta Gerao: a emergncia de sistemas automatizados para o processo de produo industrial no Jornalismo Digital. In: Comps, 2005, Niteri. CD-ROM Comps, 2005. Disponvel em: <http://www.facom.ufba.br/jol/pdf/Schwingel_2005_Compos.pdf>. Acesso em: 14 nov. 2011.
156 SCHWINGEL, Carla. A produo de contedos no ciberespao: sistemas de gerenciamento de contedos. Artigo apresentado no VII Encontro Nacional de Pesquisadores em Jornalismo. So Paulo, 2009. SCHWINGEL, Carla. Os sistemas de publicao como fator da terceira fase do Jornalismo Digital. 2004. Disponvel em: <http://www.facom.ufba.br/jol/pdf/2004_schwingel_sistemas_publicacao.PDF>. Acessado em: 27 jun. 2010. SCOTT, Tom. Opening up the BBCs natural history archive. Blog Derivadow.com, 2009. Disponvel em: <http://derivadow.com/2009/07/28/opening-up-the-bbcs-natural-historyarchive/>. Acesso em: 13 dez. 2011. SCOTT, Tom. Apis and APIS a wildlife ontology. Blog Derivadow, 2010. Disponvel em: <http://derivadow.com/2010/03/02/apis-and-apis-a-wildlife-ontology/>. Acesso em: 13 dez. 2011. SCOTT, Tom. One BBC nature. Blog Derivadow, 2011. Disponvel em: <http://derivadow.com/2011/05/13/one-bbc-nature/>. Acesso em: 13 dez. 2011. SHADBOLT, N.; BERNERS-LEE, T.; HALL, W. The Semantic Web Revisited. IEEE Intelligent Systems, vol. 21, n. 3, maio/junho de 2006, p. 96-101. Disponvel em: <http://eprints.ecs.soton.ac.uk/12614/1/Semantic_Web_Revisted.pdf>. Acesso em: 26 jan 2012. SEGARAN, Toby; EVANS, Colin; TAYLOR, Jamie. Programming the Semantic Web. EUA: O'Reilly Media, 2009. SIEGEL, David. Pull: The Power of the Semantic Web to Transform Your Business. EUA: Portfolio, 2009. SINCLAIR, Patrick. Linked Data on the BBC. 2009. Disponvel em: <http://www.slideshare.net/metade/linked-data-on-the-bbc>. Acesso em: 9 fev. 2012. SILVA FILHO, Antonio Mendes da. Programando com XML. Rio de Janeiro: Elsevier, 2004. SOUZA, Renato Rocha; ALVARENGA, Ldia. A Web Semntica e suas contribuies para a cincia da informao. Ci. Inf., Braslia, v. 33, n. 1, abril de 2004. Disponvel em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S010019652004000100016&lng=en&nrm=iso>. Acesso em: 27 mar. 2011. TAKAI, O.; ITALIANO, I.; FERREIRA, J. Introduo a Banco de Dados. [Online]. Disponvel em: <http://www.ime.usp.br/~jef/apostila.pdf>. Acesso em: 15 nov. 2011. THIS WE KNOW. About. [Pgina da web]. Online. Disponvel em: <http://www.thisweknow.org/about>. Acesso em: 18 set. 2011.
157 TUCHMAN, Gaye. Making news: a study in the construction of reality. Michigan: Free Press, 1978. VIGAS, Fernanda. Journalism in the Age of Data. Entrevista concedida a Geoff McGhee em documentrio online sobre o jornalismo na era dos dados, online, 2010. Disponvel em: <http://datajournalism.stanford.edu/>. Acesso em: 10 nov. 2011. WANGLON, Paolla. Aplicativos jornalsticos em mdias mveis: o formato para smartphones. Monografia de graduao. Universidade Federal de Santa Maria, Santa Maria/RS, 2010. W3C. HTML 4.01 Specification. 1999. Disponvel em: <http://www.w3.org/TR/1999/REChtml401-19991224/>. Acesso em: 20 nov. 2011. W3C. W3C Semantic Web Frequently Asked Questions. 2001a. Disponvel em: <http://www.w3.org/2001/sw/SW-FAQ>. Acessado em: 22 jun. 2010. W3C. W3C Semantic Web Activity. 2001b. Disponvel em: <http://www.w3.org/2001/sw/>. Acesso em: 28 nov 2010. W3C. RDF Primer. W3C Recommendation. 2004a. Disponvel em: <http://www.w3.org/TR/rdf-primer/>. Acesso em: 20 nov. 2011. W3C. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Recommendation. 2004b. Disponvel em: <http://www.w3.org/TR/rdf-schema/>. Acesso em: 20 jan. 2012. W3C. OWL Web Ontology Language Guide. W3C Recommendation. 2004c. Disponvel em: <http://www.w3.org/TR/owl-guide/>. Acesso em: 21 jan. 2012.
158
159 APNDICE A Roteiro para observao e anlise dos casos estudados PARTEIIDENTIFICAOEDESCRIODOPRODUTO 1. Identificaodoproduto 1.1. Nome: 1.2. URL: 1.3. Empresa/Instituio/Organizao: 1.4. Localidadedeorigem: 1.5. Datadapesquisa: 2. Descriodoprodutoobservado(especificidades): Tipo/funo(umportal?umareportagem?umainfografia?etc.) Forma(arquiteturadainformao,interface,navegaoetc.) Contedo(tipodecontedo,formatodanarrativajornalsticaetc.) PARTEIIANLISEDOFUNCIONAMENTOEDASVANTAGENSDASTECNOLOGIAS SEMNTICAS 1. Contextoejustificativaparausodastecnologiassemnticas 2. Identificaoderecursosetecnologiassemnticasutilizadas Utilizamodelodedadosparadescrioemtriplas?Ex.:RDF,serializaesdoRDF (RDF/XML,Notation3(N3),Turtle,NTriples,RDFa,RDF/JSON) Utilizametadadoscompartilhados?Ex.:DublinCore,FOAF,CCetc. Utilizaontologias? Utilizatcnicadetaggingousoftwareparaextraodeconceitos? Acessadadosestruturadosdedatasetscompartilhados?Ex.:Freebase,DBpedia. 3. Descriodofuncionamentodastecnologiassemnticas 4. Identificaodasvantagensdousodastecnologiassemnticasidentificadas Obs.:analisarcomoasemnticainfluencia/alteraascategoriasdoJDBD: Dinamicidade Automatizao Interrelacionamento/hiperlinkagem Flexibilidade Densidadeinformativa Diversidadetemtica Visualizao Convergncia
160 APNDICE B Lista de fonte para anlise do site BBC World Cup 2010 Abaixo, listamos os principas profissionais que serviram como fontes de dados secundrios para a identificao e descrio das tecnologias semnticas no caso BBC World Cup 2010. Jem Rayfield, arquiteto tcnico snior do departamento BBC Future Media & Technology. Rayfield participou diretamente no desenvolvimento da soluo semntica para o site BBC World Cup 2010. Os dados foram coletados de duas fontes: de um depoimento seu sobre este desenvolvimento, publicado em um blog da prpria BBC (RAYFIELD, 2010), e de uma apresentao em slides disponibilizada pelo prprio Rayfield (2011), em que apresenta breves informaes sobre a semntica em quatro diferentes projetos da BBC. Rayfield contribui com informaes detalhadas sobre o funcionamento das tecnologias. John O'Donovan, arquiteto tcnico chefe do departamento BBC Future Media & Technology. O'Donovan participou diretamente no desenvolvimento da soluo semntica para o site BBC World Cup 2010. Os dados foram coletados de duas fontes: de um depoimento seu sobre este desenvolvimento, publicado em um blog da prpria BBC (O'DONOVAN, 2010). Suas contribuies se do mais na parte conceitual do sistema. Silver Oliver, arquiteto da informao da BBC. Oliver participou no desenvolvimento de diferentes iniciativas da BBC alm do World Cup 2010. Seus dados foram coletados de uma apresentao, gravada em vdeo, em que apresenta questes tcnicas relacionadas plataforma de publicao semntica da BBC, onde comenta sobre o projeto World Cup 2010 (OLIVER, 2010a). Tambm foi encontrada uma apresentao sua sobre como a emergncia da Web Semntica modifica prticas na arquitetura da informao, em que tambm cita informaes teis sobre o projeto BBC World Cup 2010 (OLIVER, 2010b). Marin Dimitrov, desenvolvedor da empresa Ontotex, a responsvel pelo triple store BigOWLIN (utilizado pelo site da BBC). Embora seja funcionrio da empresa Ontotex, Dimitrov colaborou na implantao do triple store junto aos desenvolvedores das BBC. As contribuies de Dimitrov foram obtidas de uma apresentao de trabalho na European Technology Conference 2010, gravada em vdeo e disponibilizada na web (DIMITROV, 2010).
161 APNDICE C Lista de fonte para anlise do site BBC Wildlife Abaixo, listamos os principais profissionais que serviram como fontes de dados secundrios para a identificao e descrio das tecnologias semnticas no caso BBC World Cup 2010. Yves Raimond, tecnologista snior da equipe de Pesquisa e Desenvolvimento da BBC. Raimond foi um dos responsveis pelo desenvolvimento e manuteno do site BBC Programmes, um repositrio semntico dos programas da BBC. Encontramos um artigo em que ele e outros desenvolvedores da BBC explanam sobre alguns dos projetos semnticos da BBC (RAIMOND et al., 2010a). Tambm escreveu um breve relato sobre o projeto Wildlife no site da W3C, junto com outros profissionais da BBC (RAIMOND et al., 2010b). Silver Oliver, arquiteto da informao da BBC. Oliver participou no desenvolvimento de diferentes iniciativas da BBC alm do Wildlife. Seus dados foram coletados de uma apresentao, gravada em vdeo, em que apresenta questes tcnicas relacionadas plataforma de publicao semntica da BBC, onde comenta sobre o projeto Wildlife (OLIVER, 2010a). Tambm foi encontrada uma apresentao sua sobre como a emergncia da Web Semntica modifica prticas na arquitetura da informao, em que tambm cita informaes teis sobre o projeto BBC Wildlife (OLIVER, 2010b). Tom Scott, que at 2011 era profissional da rea de tecnologia da BBC, mas atualmente responsvel por projeto semnticos na Nature.com. Scott foi um dos dois autores da ontologia do Wildlife, junto com Leigh Dodds. Alm de suas colaboraes nas informaes presentes na documentao oficial da ontologia, uma outra fonte de dados foi o seu blog oficial. Nos primeiros anos logo aps o lanamento do Wildlife (entre 2009 e 2011), Scott publicou diversos posts em que esclarecia vrias questes relacionadas ao desenvolvimento do site (SCOTT, 2009, 2010, 2011). Patrick Sinclair, web developer e trabalha como engenheiro de software da BBC. Trabalhou em projetos da BBC relacionados a tecnologias semnticas, como o BBC Music. Sinclair foi o autor de uma apresentao sobre projetos da BBC no mbito da Web Semntica, apresentado em evento no Brasil e disponibilizado na web (SINCLAIR, 2009).
162 ANEXO A Tela da pgina do Google News
163 ANEXO B Tela inicial da seo Home do site BBC Nature
164 ANEXO C Tela inicial da seo News do site BBC Nature
165 ANEXO D Tela inicial da seo Features do site BBC Nature
166 ANEXO E Tela inicial da seo Blog do site BBC Nature
167 ANEXO F Tela inicial da seo Video Collections do site BBC Nature
168 ANEXO G Tela inicial da seo Wildlife do site BBC Nature
169 ANEXO H Tela inicial da seo Prehistoric Life do site BBC Nature
170 ANEXO I Tela inicial da seo Places do site BBC Nature
171 ANEXO J Resultado de busca no Google pelo termo "lion"
172 ANEXO K Resultado de busca no Google pelos termos "world cup 2010"

Organização e Gerenciamento de Conteúdos Jornalísticos Na Web Semântica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Organização e Gerenciamento de Conteúdos Jornalísticos Na Web Semântica

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE CINCIAS SOCIAIS E HUMANAS PROGRAMA DE PS-GRADUAO EM COMUNICAO

ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA

Santa Maria, RS, Brasil 2011

ORGANIZAO E GERENCIAMENTO DE CONTEDOS JORNALSTICOS NA WEB SEMNTICA

Orientadora: Profa. Dr. Luciana Mielniczuk

Santa Maria, RS, Brasil 2011

A Comisso Examinadora, abaixo assinada, aprova a proposta de qualificao da dissertao de Mestrado

Como requisito parcial para obteno do grau de Mestre em Comunicao

COMISSO EXAMINADORA: __________________________________

Santa Maria, dezembro de 2011.

SUMRIO INTRODUO ................................................................................................. 13 1 JORNALISMO DE DADOS ................................................................... 21

A WEB SEMNTICA NO JORNALISMO DIGITAL ....................... 87

CONSIDERAES FINAIS ......................................................................... 145 REFERNCIAS BIBLIOGRFICAS .......................................................... 149

O processo de seleo do corpus detalhado no 3 captulo.

Figura 1 Vdeo do YouTube com insero dinmica de comentrio sobreposto ao vdeo14

Figura 2 Vdeo do YouTube com insero dinmica de links sobrepostos ao vdeo15

Figura 3 Pgina de vdeo do YouTube com insero dinmica de dados17

Disponvel em: <http://oursignal.com>. Acesso em: 13 dez. 2011.

(MANOVICH, 2008, p. 3).

2.1 A web atual: uma rede de documentos

Figura 6 Estrutura da tripla

Figura 7 Exemplo de tripla

Disponvel em: <http://dublincore.org/>. Acesso em: 17 set 2011.

Disponvel em: <http://thisweknow.org/>. Acesso em: 13 dez. 2011.

2.2.5 As mquinas tomam a iniciativa: os agentes inteligentes

Disponvel em: <http://www.opencalais.com/>. Acesso em: 29 set. 2011.

Figura 16 Processo de extrao de conceitos no servio Calais78

Disponvel em: <http://dbpedia.org/page/So_Paulo>. Acesso em: 17 set 2011.

Figura 18 Diagrama do Linked Data, atualizado em maio de 200786

Figura 19 Diagrama do Linked Data, atualizado em 19 de setembro de 201187

Disponvel em: <http://richard.cyganiak.de/2007/10/lod/>. Acesso em: 12 jan. 2012.

3 A WEB SEMNTICA NO JORNALISMO DIGITAL

Figura 21 Pgina dos times (Seleo brasileira), dividida em duas partes94

Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/groups_and_teams/team/brazil>. Acesso em: 11 dez. 2011.

Figura 22 Pgina dos jogadores (jogador Robinho), dividida em duas partes95

Disponvel em: <http://www.bbc.co.uk/sport/0/football/world_cup_2010/groups_and_teams/team/brazil/robinho/>. Acesso em: 11 dez. 2011.

Figura 23 Pgina dos grupos (grupo G), dividida em duas partes96

Disponvel em: <http://www.bbc.co.uk/sport/0/football/world_cup_2010/groups_and_teams/group_g/>. Acesso em: 11 dez. 2011.

Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/matches/match_57/default.stm>. Acesso em: 12 dez. 2011.

Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/matches/match_57/default.stm>. Acesso em: 12 dez. 2011.

Disponvel em: <http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/8823478.stm>. Acesso em: 11 dez. 2011.

Disponvel em: <http://news.bbc.co.uk/sport1/hi/football/world_cup_2010/>. Acesso em: 11 dez. 2011.

Figura 29 Pgina Fixtures and results102

Disponvel em: <http://news.bbc.co.uk/sport1/hi/football/world_cup_2010/fixtures_and_results>. Acesso em: 17 dez. 2011.

Figura 30 Menu superior do site World Cup 2010

Figura 31 Menu inferior do site World Cup 2010

Figura 34 Dados sobre jogador convertidos para o formato de grficos em barra

Figura 35 Pgina inicial do BBC Wildlife110

Disponvel em: <http://www.bbc.co.uk/nature/wildlife/>. Acesso em: 21 dez. 2011.

Figura 36 Menu na pgina inicial do site Wildlife. Marcaes nossas

Figura 37 Viso parcial da pgina das espcies111

Disponvel em: <http://www.bbc.co.uk/nature/life/Lion/>. Acesso em: 22 dez. 2011.

Figura 38 Pgina das espcies, com marcaes indicativas

Figura 40 Pgina de comportamento/adaptao (esquerda) e da pgina de habitat (direita)

Figura 41 Caixa de links para notcias relacionadas ao conceito de "leo"

Figura 42 Pgina de notcia no site BBC Earth News119

Disponvel em: <http://news.bbc.co.uk/earth/hi/earth_news/newsid_8993000/8993557.stm>. Acesso em: 17 jan. 2012.

Disponvel em: <http://www.bbc.co.uk/nature/>. Acesso em: 17 jan. 2012.

Disponvel em: <http://www.bbc.co.uk/blogs/wondermonkey/>. Acesso em: 18 jan. 2012.

Figura 45 esquerda, a pgina da espcie Tarntula. direita, a pgina serializada em RDF/XML

Figura 46 Triplas RDF que descrevem um vdeo do site BBC Programmes

Figura 47 Triplas RDF que descrevem um vdeo do site BBC Programmes

Figura 49 Clipe de vdeo do BBC Programmes agregado pgina do Wildlife