Você está na página 1de 1

QualityStamp – Avaliando a Qualidade de Linked

Datasets para Aplicações de Domínio Específico


Walter Travassos1, Damires Souza2, Bernadette Lóscio1
1Centro de Informática / UFPE, Brasil
2Instituto Federal de Educação, Ciência e Tecnologia da Paraíba / IFPB, Brasil

wts@cin.ufpe.br, damires@ifpb.edu.br, bfl@cin.ufpe.br

Resumo. O grande número de linked datasets disponíveis na Web,


bem como a falta de informações sobre a qualidade destes dados,
Avaliação da Qualidade
traz a tona um grande desafio: como identificar os melhores Critério de QI Métrica Descrição
Linked Datasets para uma determinada aplicação? Este trabalho onde: |AV| é o somatório de um conjunto
apresenta a QualityStamp, uma ferramenta que avalia a qualidade |𝐴𝑉| de respostas positivas para o teste da
Disponibilidade
de Linked Datasets considerando os requisitos da aplicação. 𝑛 disponibilidade; n é o total de testes de
disponibilidade.
O Problema onde: |RT| é o somatório de um conjunto
Tempo de |𝑅𝑇| de tempos de resposta; n é a quantidade
Resposta 𝑛 de elementos do conjunto de tempos de
resposta.
onde: teste1 representa o teste de
(𝑡𝑒𝑠𝑡𝑒1 ∙ 𝑤1 ) + variação de carga para 10 solicitações,
Atraso de Fila (𝑡𝑒𝑠𝑡𝑒2 ∙ 𝑤2 ) + teste2 para 50 solicitações e o teste3 para
(𝑡𝑒𝑠𝑡𝑒3 ∙ 𝑤3 ) 100 solicitações; w1 representa o peso de
20%, w2 de 30% e w3 de 50%.
onde: |RSi| é o somatório dos padrões de
Completude do |𝑅𝑠𝑖 | triplas sem literais de PTA encontrados em
Esquema |𝑃𝑇𝐴 | si; PTA é o somatório de todos os padrões
de triplas sem literais procurados.
onde: |RSi| é o somatório dos padrões de
Completude de |𝑅𝑠𝑖 | triplas com literais de PTLA encontrados
Literal |𝑃𝑇𝐿𝐴 | em si; PTLA é o somatório de todos os
Linked Datasets candidatos (SA)
Como identificar padrões de triplas com literais procurados.

?
+ os melhores onde:|RSi| é o somatório dos recursos que
Domínio (D) linked datasets |𝑅𝑠𝑖 | representam instâncias de classes de RIA
Aplicação Completude de
+ para a aplicação encontrados em Si; RIA é o somatório de
Linked Data Instância |𝑅𝐼𝐴 |
Linked Data? todos os recursos que representam
Requisitos da Aplicação (RAPP)
instâncias de classes procurados.
Requisitos da Aplicação (RAPP) |𝑇𝐼𝑠𝑖 | onde: |TTSi| é o total de triplas de si; TISi é
Interlinking o total de triplas com predicados de
|𝑇𝑇𝑆𝑖 | interlinking em si.
Requisitos de Dados (QA)
QualityStamp = + Ao final da avaliação a QualityStamp gera uma Medida Única de
Requisitos não funcionais (CE) Qualidade para classificação dos linked datasets candidatos (SA)
Requisitos de Dados (QA). Conjunto de consultas SPARQL utilizando o método de decisão por múltiplos atributos SAW (Simple
importantes do ponto de vista da do usuário ou da aplicação. Additive Weighting).
Requisitos não funcionais (CE). Conjunto de critérios de Qualidade 𝑛 onde i representa cada linked dataset candidato  SA; pij
da Informação (QI) escolhidos pelo Especialista no Domínio da representa a pontuação de cada critério j para o candidato
𝑆𝐴𝑊𝑖 = ෍ 𝑝𝑖𝑗 𝑤𝑗
aplicação. Os critérios de QI utilizados são: Disponibilidade, Tempo i; e wj representa o peso atribuído ao critério j pelo
𝑗=1
de Resposta, Atraso de Fila, Completude e Interlinking. especialista no domínio no início da avaliação da qualidade.
São atribuídos pesos para cada critério de QI selecionado pelo
especialista no domínio para participar da avaliação. A soma de Conclusões
todos os pesos deve ser igual a 1.
A ferramenta proposta facilita a avaliação da qualidade de um
Avaliação da Completude grande número de linked datasets, além de minimizar o custo de
execução de consultas complexas no momento da avaliação da
A pontuação para o critério completude é calculada a partir de três
qualidade.
tipos de completudes: de Esquema (PTA), de Literal (PTLA) e de
Instância (RIA).
Foram realizados experimentos em 32 linked datasets (SA) no
Conjunto de Padrões de Triplas sem literais (PTA) domínio de dados bibliográficos considerando um conjunto QA com
Ex: ?journal a akt:Journal 05 consultas SPARQL e diferentes pesos para cada critério de
Conjunto de Padrões de Triplas com Literais (PTLA) qualidade.
BGPs de QA
Ex: ?autor akt:full-name "Takeo Kanade"
Conjunto de Recursos que Representam Instâncias (RIA) Observou-se que o critério de QI completude (esquema, literal e
Ex: ?artigo akt:has-date akt-date:2000 instância) possui a maior influência com relação aos demais na
avaliação da qualidade. Os resultados obtidos foram similares aos
A Ferramenta obtidos a partir de uma avaliação manual.

Principais Referências
Buil-Aranda C., Hogan A., Umbrich J., Vandenbussche P. (2013) “SPARQL Web-
Querying Infrastructure: Ready for Action?”, In: 12th International Semantic Web
Conference (ISWC 2013). Sydney, Australia, Outubro de 2013.
Naumann F. (1998) “Data Fusion and Data Quality”, In: New Techniques and
Technologies for Statistics Seminar (NTTS’98). Sorrent, Italy, 1998.
Wang, R. Y. e Strong, D. M. (1996): “Beyond accuracy: What data quality means to
data consumers”, In: Proceedings of the Journal on Management of Information
Systems, 12(4):5-34.
Zaveri, A., Rula, A., Maurino, A., Pietrobon, R., Lehmann, J., Auear, A. (2012) “Quality
Assessment Methodologies for Linked Open Data”, In: IOS Press 2012.