Você está na página 1de 5

4,5 MAKINGLINKSWITHRDF 4.5.

1 MAKING LINKS WITHIN A DATA SET Esta seo ir explorar o processo de criao de links dentro de e entre conjuntos de dados. Ambos os aspectos so essenciais para garantir que um conjunto de dados integrado com theWeb em geral, e que todos os recursos que descreve esto totalmente descobertos, uma vez o conjunto de dados foi localizado. 4.5.1.1 Publishing Incoming Ligaes andOutgoing Alm de pequeno porte, conjuntos de dados estticos que razoavelmente possam ser publicados na Web em um arquivo RDF, a maioria dos conjuntos de dados ser dividido acrossmultiple documentos RDF para publicao como LinkedData.Whether esses vrios documentos so estticos ou dinamicamente gerado menos importante que o estrutural caractersticas por onde fragmentos do conjunto de dados utilizados dados do mesmo esto espalhados documentos across multiple no servidor sameWeb. Nesta situao, deve ser assegurado que recursos relacionados (e os documentos que descrevem eles) so ligados uns aos outros, garantindo que cada fragmento de dados pode ser descoberto por indexadores ou outras aplicaes consumindo o conjunto de dados atravs traversal.This link pode ser considerada anloga garantir que um site conventionalWeb tem mecanismos adequados para a navegao entre pginas, como que no existem pginas rfs em um site, e deve ser implementado de acordo com as consideraes descrito na Seo 4.2. 4.5.2 FONTES MAKING LINKS WITH EXTERNAL DATA Aps a publicao de um conjunto de dados ligados, deve ser assegurado que os links RDF a partir de fontes externas ponto em URIs no conjunto de dados. Isso ajuda a garantir que os dados podem ser descobertos pelos navegadores RDF e esteiras rolantes, e pode ser alcanado, completando conjuntos de dados existentes (de propriedade da mesma editora ou por terceiros) com links apontando para RDF recursos no novo conjunto de dados.Assumindo que o conjuntos de dados existentes tambm tm ligaes recebidas, ento o novo conjunto de dados ser detectvel. Terceiros pode precisar convencer do valor da ligao para um novo conjunto de dados.Fatores que pode ser persuasivo em tais situaes so o valor do novo conjunto de dados (ou seja, este dado que no foi disponveis anteriormente?), o seu valor acrescentado aos dados existentes definido se ligada (isto , que pode ser alcanado que no seria possvel sem o novo conjunto de dados?), eo custo de criao de links de alta qualidade (ou seja, como complexa a criao e manuteno de tais ligaes?). Uma estratgia criar as ligaes necessrias RDF e pedir terceiros para incluir esses triplos na sua abordagem sets.This de dados tem sido utilizado com sucesso com DBpedia, que integra vrios ligao conjuntos gerados por terceiros que os recursos ligao DBpedia aos outros conjuntos de dados

4.5.2.1 Escolhendo LinkingTargets External De igual importncia para as ligaes entrantes so links de sada. O captulo 3 descreve alguns dos variedade variedade de conjuntos de dados j disponveis no Web of Data, que asseguram colectivamente muitos potenciais metas para as ligaes de dentro de um novo conjunto de dados. Os dois principais benefcios do uso de URIs a partir desses dados fontes so: 1. Os URIs so dereferenceable, o que significa que uma descrio do conceito pode ser recuperado a partir theWeb. Por exemplo, usando o DBpedia URI para http://dbpedia.org/resource/Birmingham identificar a cidade ofBirminghamprovides uma extensa descrio da cidade, incluindo resumos em muitas lnguas. 2. Os URIs j esto ligados a URIs de outras fontes de dados. Por exemplo, possvel para navegar a partir da URI DBpedia http://dbpedia.org/resource/Birmingham de dados sobre Birmingham fornecida pelo Geonames.Therefore, ligando a URIs a partir desses conjuntos de dados, os dados torna-se conectado em uma rede de ricos e de rpido crescimento de outras fontes de dados. A lista completa de conjuntos de dados que pode ser adequado como alvos ligao mantida na CKAN repository41. Na avaliao de conjuntos de dados como potenciais alvos ligando, importante considerar as seguintes perguntas [13]: Qual o valor dos dados no conjunto de dados alvo? Em que medida este valor acrescentar ao novo conjunto de dados? a meta estabelecida de dados e seu namespace sob propriedade estvel e manuteno ativa? Os URIs no conjunto de dados estveis e no deve mudar? Existem ligaes em curso a outros dados definida para que aplicaes pode tocar em uma rede de interconectados fontes de dados? Uma vez que as metas adequadas ligando foram identificadas, as ligaes podem ser criados usando os mtodos descritas no restante deste captulo. 4.5.2.2 Escolhendo Predicados para Linking A natureza dos dados sendo publicados vai determinar quais os termos adequados para fazer predicados links para outros conjuntos de dados. Por exemplo, termos comumente utilizados para ligar no domnio das pessoas so foaf: sabe, foaf: based_near e foaf: topic_interest. Exemplos da combinao dessas propriedades com valores de propriedade de DBpedia, a bibliografia e os DBLP Mashup Livro RDF pode ser encontradas nos perfis online de Tim Berners-Lee42 e Ivan Herman43. Em geral, os fatores que devem ser tidas em conta na escolha de predicados para a ligao so: 4.1 http: / / ckan.net / group / lodcloud 4.2 http: / / www.w3.org/People/Berners-Lee/card 4.3 http: / / www.ivan-herman.net/foaf.rdf66

4. LINKED DATA DESIGN CONSIDERATIONS 1. Como amplamente o predicado j utilizado para a ligao por outras fontes de dados? 2. o vocabulrio bem conservado e devidamente publicado com dereferenceable URIs? A lista de vocabulrios amplamente utilizada a partir do qual as propriedades vinculao pode ser escolhido dada em Ponto 4.4.4, bem como na Seo 2.4 do Estado do documento Nuvem LOD 44. Se muito termos especficos ou proprietrias so usados para ligar, eles devem ser ligados a termos mais genricos usando rdfs: mapeamentos subPropertyOf, como descrito em 2.5.3 e 4.4.4, pois isso permite que aplicativos cliente para traduzi-los para um vocabulrio reconhecido 4.5.3 SETTING RDF LINKS MANUALLY Ligaes RDF pode ser definido manualmente ou automaticamente - a escolha do mtodo vai depender do conjunto de dados e o contexto em que est interligando published.Manual normalmente empregado para pequenas, esttica conjuntos de dados, enquanto conjuntos de dados maiores, geralmente requerem uma abordagem automatizada ou semi-automtica. Uma vez que os conjuntos de dados de destino tenham sido identificados, estes podem ser pesquisados manualmente para encontrar a URIs de recursos-alvo para a ligao. Se uma fonte de dados no fornece uma interface de pesquisa, como um SPARQL endpoint ou um formulrio da Web HTML, um Linked browser de dados pode ser usado para explorar o conjunto de dados e encontrar o URIs relevantes. Servios, tais como Sindice45 e Falcons 46 fornecer um ndice de URIs que podem ser pesquisados por palavra-chave e usado para identificar URIs candidato para a ligao. Se vrioscandidatos de diferentes URIs conjuntos de dados so encontrados, em seguida, os links podem ser criados para cada um deles, se theymeet os critrios como destinos de ligao. Em alternativa, apenas um de dados de destino setmay ser escolhidos com base nos critrios descritos na Seo 4.5.2.1. Novamente, decises como estas devem ser tomadas com base nas particularidades do contexto de publicao. importante lembrar que as fontes de dados usam URIs diferentes para identificarobjetos do mundo real e documentos theHTML ou RDF que descrevem essas commonmistake objects.A ao estabelecer ligaes manualmente para apontar para o documento URIs e no no URIs identificar o objeto do mundo real. Portanto, cuidados devem ser tomados ao selecionar alvo URIs para evitarinvoluntariamente afirmando que um pessoa vive, ou amigos, com um documento. 4.5.4 AUTO-GENERATING RDF LINKS Em princpio, existem dois tipos principais de tcnicas de linkage: simples baseado em chaves abordagens que exploram esquemas de nomenclatura comum utilizada por ambas as fontes de dados; mais complexo-similaridade, abordagens baseadas que comparam itens de dados e interligar-los se a sua semelhana est acima de um determinado limiar.

4.5.4.1 Principais Abordagens baseadas em Em vrios domnios, h geralmente aceitos nomeao esquemas. Por exemplo itemComrcio, Global Nmeros (GTIN) so comumente usados para identificar produtos; no domnio publicao, h ISBN nmeros, no domnio financeiro h ISINidentifiers. Se um conjunto de dados contmidentificadores, esses deve ser exposto como parte do URIs ou como valores de propriedade. Tais propriedades so chamados inverse propriedades funcionais como o seu valor identifica o assunto do triplo e deve ser definido como tal no vocabulrio correspondente, afirmando que eles so do tipo owl:InverseFunctionalProperty. Incluindo identificadores comumente aceitos em URIs, ou como inversa propriedades funcionais em dados publicados, estabelece as bases para o uso simples de algoritmos baseada em padres para gerar links RDF entre os dados. Uma fonte de dados exemplo usando cdigos GTIN para os produtos em suas URIs ProductDB, que atribui o http://productdb.org/gtin/09781853267802 URI para uma verso especial de A Origem das Espcies por Charles Darwin. URI aliases tambm so criados com base na ISBN47 e EAN48 identificadores para o livro, auxiliando ainda mais baseado em chave de ligao. 4.5.4.2 Abordagens baseadas em Similaridade Em casos onde no existem identificadores comuns em conjuntos de dados, necessrio empregar mais complexo similaridade heurstica baseada em heuristics.These ligao pode comparar vrias propriedades das entidades que devem ser interligados, bem como propriedades de entidades relacionadas. Eles agregar os diferentes pontuaes de similaridade e entidades de interligao, se o valor agregado semelhanaest acima de um determinado limite. Por exemplo, Geonames e DBpedia ambos fornecem informaes sobre lugares geogrficos. em ordem para identificar os lugares que aparecem em ambos os conjuntos de dados, pode-se usar uma heurstica que compara os nomes dos lugares usando uma seqncia de similaridade de funo, longitude e latitude valoresusando um matcher geogrfica, o nome do pas em que os lugares esto localizados, bem como a sua contagem depopulao. Se todos (ou mais) do resultado comparaes dos escores de similaridade alta, presume-se queambos os lugares so os mesmos. Como no se pode assumeWeb fontes de dados fornecem uma descrio completa de recursos, a similaridade heursticas precisam ser escolhidos que toleram valores em falta. DBpedia, por exemplo,contm apenas contagem da populao por uma frao dos lugares descritos. Uma heursticacorrespondncia adequada poderia portanto, para dar um peso adicional para o pas em que um lugar est localizado em casos em que o Contagem da Populao est em falta. Existem vrias ferramentas disponveis que permitem a heurstica de correspondncia a ser definido em um declarativo moda e automatizar o processo de gerar links RDF com base nessas declaraes. 4. LINKEDDATADESIGNCONSIDERATIONS Silk - Quadro Descoberta Link [111]. Silk fornece uma linguagem, flexvel declarativa para especificando heursticas mathing. Heursticas Mathing pode combinar matchers cadeia diferente, numrico, bem como matchers geogrfica. Silk permite valores de

dados a ser transformado antes que eles so utilizados no processo de correspondncia e permite pontuaes de similaridade para serem agregadas usando vrios agregao de funes. Silk pode combinar local, bem como conjuntos de dados remotos que so acessados atravs o protocolo SPARQL. Tarefas correspondentes que exigem um grande nmero de comparaes podem ser manipuladas atravs da utilizao de diferentes caractersticas de bloqueio ou pela execuo de seda em um cluster Hadoop. Silk est disponvel sob a licena Apache e pode ser baixado a partir do projeto website49 . LIMES LinkDiscoveryFramework-Espaos forMetric [44]. LIMES implementa um rpido e abordagem sem perdas para os grandes descoberta ligao com base em caractersticas dos espaos, mas ofmetric fornece uma linguagem menos expressiva para a especificao de heursticas correspondente. Informaes detalhadas sobre LIMES encontrado na website50 projeto. Alm das ferramentas acima, que dependem de usurios especificar explicitamente a heurstica de correspondncia, tambm existem ferramentas disponveis que aprender a heurstica correspondncia diretamente a partir dos dados. Exemplos de tais ferramentas incluem RiMOM51, idMash [77], e ObjectCoref . A vantagem de aprendizagem heurstica correspondncia que os sistemas no precisam ser manualmente configurado para cada tipo de ligaes que esto a ser criadas entre conjuntos de dados.A desvantagem que mquina de aprendizagem baseado em abordagens tipicamente tm menor preciso em comparao com abordagens que contar com o conhecimento de domnio fornecido por seres humanos na forma de uma instncia description.The correspondncia Correspondncia trilha dentro Ontologia Avaliao Iniciativa Alinhamento 201.053 em comparao a qualidade de links que foram produzidos por diferentes aprendizagem-avaliao com base tools.The revelou valores de preciso entre 0,6 e 0,97 e mostrou que a qualidade dos links resultantes depende muito da especfica ligando tarefa. A tarefa relacionada gerao de ligao a manuteno de ligaes com o tempo, alterar dados fontes. Existem vrias propostas de mecanismos de notificao para lidar com esta tarefa, uma viso geral do que dada em [109]. Em [87], os autores propem DSNotify, um quadro que monitora dados Linked fontes e aplicaes informa consumindo cerca informaes sobre changes.More LinkDiscovery ferramentas e uma lista up-to-date de referncias mantido pela comunidade em LOD.