Escolar Documentos
Profissional Documentos
Cultura Documentos
Marlia, 2014
Monografia
apresentada
ao
Centro Universitrio Eurpides de
Marlia como parte dos requisitos
necessrios para a obteno do
grau de Bacharel em Cincia da
Computao
Orientador: Prof. Dr. Elvis Fusco
Marlia, 2014
AGRADECIMENTOS
A Deus, a meu pai, Jos Artur, minha me, Ana Maria, meu irmo Fernando,
tambm meus tios e meus fiadores durante a graduao, Domingos e Isabel.
Aos meus amigos, em especial Marcelo, Felipe, Slvio, Lucas, Anderson,
Marianas Cristina, Mariana Regina, Natalia e Adriana.
Aos todos os meus colegas de sala, em especial Victor, Lucas, Alexandre, Danilo,
Maycon e Luana.
Ao meu orientador Prof. Dr. Elvis Fusco, pelo auxlio e orientao durante a
produo do trabalho.
A todos os professores que lecionaram durante minha graduao em Bacharelado
em Cincia da Computao.
Sumrio
Sumrio ................................................................................................................................. 5
Lista de Figuras...................................................................................................................... 7
Lista de Tabelas ..................................................................................................................... 8
Lista de Siglas ........................................................................................................................ 9
Resumo ................................................................................................................................ 10
Abstract ............................................................................................................................... 11
Introduo............................................................................................................................ 12
Objetivos ............................................................................................................................. 15
Metodologia ......................................................................................................................... 16
Trabalhos Correlatos ............................................................................................................ 17
1. Recuperao de Informao .......................................................................................... 18
1.1. Definio ............................................................................................................... 18
1.2. Modelos de Recuperao da Informao ................................................................ 19
1.2.1. Modelos Quantitativos........................................................................................ 19
1.2.1.1. Modelo booleano ............................................................................................ 20
1.2.1.2. Modelo Vetorial .............................................................................................. 20
1.2.1.3. Modelo Probabilstico ..................................................................................... 21
1.2.2. Modelos Dinmicos ............................................................................................ 22
1.2.2.1. Redes Neurais ................................................................................................. 22
1.2.2.2. Algoritmos Genticos ..................................................................................... 22
1.3. Recuperao da Informao na WEB ..................................................................... 23
1.4. Recuperao da Informao em Big Data ............................................................... 24
2. Big Data ....................................................................................................................... 25
2.1. Definies.............................................................................................................. 25
2.2. Armazenamento das Informaes........................................................................... 28
2.3. Valor dos Dados ..................................................................................................... 28
2.3.1. Reutilizao Bsica ............................................................................................ 29
2.3.2. Fuso de Bancos de Dados ................................................................................. 30
2.3.3. Utilizao de um dado em diversos cenrios ....................................................... 31
2.4. Aplicaes do Uso de Big Data .............................................................................. 31
2.5. Inteligncia Competitiva ........................................................................................ 32
2.5.1. Objetivos da Inteligncia Competitiva ................................................................ 33
2.6. Semntica no Big Data ........................................................................................... 33
3. Ontologia e Recuperao Semntica ............................................................................. 34
3.1. Web Semntica ...................................................................................................... 34
3.2. Definio de Ontologia .......................................................................................... 36
3.3. Construo da Ontologia ........................................................................................ 38
3.4. Metodologias de Construo da Ontologia ............................................................. 39
3.4.1. Metodologia da Noy e McGuiness ...................................................................... 39
3.5. Linguagens para construo da ontologia ............................................................... 41
3.5.1. OWL .................................................................................................................. 41
3.5.1.1. Elementos do OWL ........................................................................................ 42
3.6. Ambiente de Desenvolvimento da Ontologia ......................................................... 43
3.6.1. Protg ............................................................................................................... 43
4. Proposta de Recuperao da Informao ....................................................................... 45
4.1. Espao de Persistncia ........................................................................................... 46
5
Lista de Figuras
Figura 1: 5 Vs do Big Data.................................................................................................. 25
Figura 2: Estrutura da Web Semntica ................................................................................. 34
Figura 3: Tela Protg ......................................................................................................... 43
Figura 4: Arquitetura de Contextualizao do Agente Semntico de Extrao....................... 44
Figura 5: Processo realizado pelo sistema de extrao .......................................................... 47
Figura 6: Mapas mentais representao a relao hierrquica da ontologia .......................... 49
Figura 7: Relao das classes feitas no Software Protg...................................................... 50
Figura 8: Diagrama com estrutura do rob de extrao ........................................................ 52
Figura 9: Pgina de retorno do IEEE Xplore ........................................................................ 53
Figura 10: Relaes da classe, do termo pesquisado ............................................................. 54
Figura 11: Tela de interao com o usurio para realizar a busca .......................................... 56
Figura 12: Tela de resultados da busca realizada ................................................................... 57
Figura 13: Exemplo de um artigo analisado. ......................................................................... 60
Lista de Tabelas
Tabela 1: Quantidade de Dados Gerais ................................................................................. 27
Tabela 2: Anlise dos Artigos Extrados ............................................................................... 58
Lista de Siglas
RI ................................................................................................. Recuperao de Informao
OWL..................................................................................................Web Ontology Language
TI..................................................................................................... Tecnologia da Informao
XML ........................................................................................... Extensible Markup Language
RDF ..................................................................................... Resource Description Framework
NoSQL ..............................................................................................................Not Only SQL
RDF ..................................................................................... Resource Description Framework
Resumo
O grande aumento da produo e disseminao de dados na Internet pode oferecer
informaes de alto valor agregado s organizaes. Estas informaes podem estar em bases
distintas e heterogneas e em fontes que antes no eram consideradas relevantes, como mdias
sociais, blogs e outros. Se as organizaes conseguirem utilizar destas fontes, podem fazer
com que haja uma nova viso de gesto conhecida como Inteligncia Competitiva. No
contexto de uma arquitetura de Recuperao da Informao, esta pesquisa tem como objetivo
a implementao de um agente de extrao semntica no contexto da Web que permita a
localizao, armazenamento, tratamento e recuperao de informaes no contexto do Big
Data nas mais variadas fontes informacionais na Internet que sirva de base para a
implementao de ambientes informacionais que auxiliem o processo de Recuperao da
Informao, utilizando de ontologia para agregar semntica ao processo de recuperao e
apresentao dos resultados obtidos aos usurios, conseguindo desta forma atender suas
necessidades informacionais.
10
Abstract
The large increase in the production and dissemination of data on the Internet can offer
information of high-earned value to organizations. This information may be on different bases
and heterogeneous and supplies that were not considered relevant as social media, blogs, and
more. If organizations get used these sources can make a new management vision known as
Competitive Intelligence. In the context of an architecture of Information Retrieval, this
research aims implementing a semantic extraction agent in the context of the Web allowing
the location, storage, processing and retrieval of information like Big Data in various
informational sources on the Internet serving as a base for the implementation of information
environments the process of Information. Using Ontology to add semantics to the recovery
process and presentation of results to the users, thus being able to meet their informational
needs.
Keywords: Ontology, Information Recovery, Big Data, Semantic Web, Extraction Agent
11
Introduo
A exploso de gerao massiva de dados est testando a capacidade das mais
avanadas tecnologias de armazenamento, tratamento, transformao e anlise de
informaes. As reas do tratamento e da recuperao da informao esto sendo desafiadas
pelo volume, variedade e velocidade de uma inundao de dados semiestruturados e no
estruturados de natureza complexa, que tambm oferece s organizaes excelentes
oportunidades de terem um aprofundamento no conhecimento mais preciso de seus negcios.
Neste contexto, surgem inmeras oportunidades em agregar valor ao negcio com
base nessas informaes que so geradas tanto no ambiente interno quanto no externo, porm
h a necessidade de uma nova abordagem na estrutura de TI (Tecnologia da Informao) das
empresas em transformar esses dados em conhecimento para as organizaes, que causar
impacto de longo alcance.
Para agregar e utilizar as informaes que esto espalhadas nos ambientes internos
e externos das organizaes, surge o conceito da Inteligncia Competitiva que segundo
ABRAIC (Associao Brasileira dos Analistas de Inteligncia Competitiva), um processo
informacional proativo que conduz melhor tomada de deciso, seja ela estratgica ou
operacional, visando descobrir as foras que regem os negcios, reduzir o risco e conduzir o
tomador de deciso a agir antecipadamente, bem como proteger o conhecimento gerado
(BRASILIANO, 2002).
No cenrio atual destas informaes geradas nos ambientes organizacionais,
principalmente nos que tem a Internet como plataforma, encontram-se dados que devido s
suas caractersticas, atualmente classificam-se como Big Data.
Dentre estas caractersticas destacam-se: volume - enormes conjuntos de dados
que so de magnitude maior do que os dados mantidos em sistemas de armazenamento
tradicional; variedade - dados heterogneos, complexos e variveis que so gerados em
formatos diversos que tem como fonte: e-mails, mdias sociais, vdeos, imagens, blogs e bases
da web; velocidade - os dados so gerados em fluxo constante com consultas em tempo real
de informaes significativas para tomada de deciso; valor - esses dados so potenciais para
gerao de conhecimentos significativos que oferecem anlises preditivas para futuras
tendncias e padres, que vo alm dos resultados tradicionais de consultas e relatrios de
sistemas de informao transacionais.
Na publicao do Journal of Science (GRAHAN-ROWE, 2008) Big Data
12
especfico associam-se aos robs de busca na Web conceitos semnticos, que permitem
realizar a procura no mais por palavras chaves num processo de busca textual, mas sim por
significado e valor, extraindo das pginas e servios da Web informaes de real relevncia,
descartando aquilo que desnecessrio. A partir disto, a ontologia aparece como soluo na
busca de inserir semntica neste processo.
A ontologia, no contexto filosfico, definida por Silva (2003) como a parte da
cincia que estuda o ser e seus relacionamentos e neste sentido, o uso de ontologias
essencial no processo de desenvolvimento dos robs de busca semntica, sendo aplicada na
Cincia da Computao e na Cincia da Informao para possibilitar uma busca de maneira
mais inteligente e mais prxima do funcionamento do processo cognitivo do usurio de forma
que a extrao de dados se torne muito mais relevante.
Atualmente vivencia-se uma nova disrupo tecnolgica pela convergncia da
colaborao, mobilidade e grande volume de dados (Big Data). O grande desafio para a
pesquisa de sistemas computacionais e para a forma de uso das informaes nas organizaes
est em promover a integrao destas tecnologias para balancear as necessidades de gerao,
acesso e controle destas informaes, bem como as oportunidades deste comportamento
emergente e suas inovaes.
14
Objetivos
Esta pesquisa tem como objetivo criar uma plataforma semntica de Recuperao
de Informao na Web que permita a localizao, armazenamento, tratamento e recuperao
de informaes inseridos em um contexto de Big Data, nas mais variadas fontes
informacionais na Internet que sirvam de base para uma arquitetura computacional que
transforme a informao desagregada em um ambiente de conhecimento estratgico,
relevante, preciso e utilizvel para permitir aos usurios o acesso as informaes com maior
valor agregado, que consiga satisfazer as necessidades informacionais do usurio, aderindo
uma semntica ao processo de Recuperao da Informao.
Tem como objetivos especficos:
15
Metodologia
O projeto foi dividido em trs partes principais:
16
Trabalhos Correlatos
Arquiteturas de Recuperao de Informao com o uso de agentes foram
propostos por outras pesquisas, onde realizam a extrao da informao para o uso posterior
em algum cenrio.
Desta forma Beppler (2005), props uma Arquitetura de Recuperao de
Informao. Esta recuperao ocorre apenas com a anlise de documentos e armazenamento
de informao, sem observar o contexto existente, sendo que esta anlise ocorre de forma
sintticas. Esta proposta interessante pois possvel extrair informao de uma maneira
eficiente, mas limitado, pois a busca sinttica, diminuindo assim, a eficincia desta
arquitetura.
J Wisner (2008) props uma soluo semntica para este problema. Esta proposta
rene uma arquitetura que usa uma soluo onde a semntica ocorre atravs do uso de
ontologias para ter uma base de integrao de conhecimento, utilizando um agente que realiza
associaes e integraes do conhecimento. Esta pesquisa pode realizar boas associaes para
cada tipo de conhecimento, mas a semntica limitada porque apenas faz associaes de
informaes, no tratando como deve ser representada e apresentada as informaes ao
usurio, sendo desta maneira uma pesquisa que consegue realizar parte do processo, mas no
as aplica de fato na representao da informao, outra questo, se de fato aquelas
informaes tero real valor para um domnio particular.
17
1. Recuperao de Informao
A recuperao da informao tem se tornado alvo de muitos estudos, devido
grande quantidade de informaes que hoje se encontram espalhados pela rede.
A recuperao da informao lida com a representao, armazenamento,
organizao e acesso as informaes. Devendo prover ao usurio aquilo que ele necessita de
uma maneira facilitada (BAENZA-YATES E RIBEIRO-NETO, 1999).
O conceito de recuperao de informao diferente de recuperao de dados. A
recuperao de dados consiste em extrair de um banco de dados qualquer documento que
contm uma expresso regular ou os termos ali contidos. Sendo que a recuperao da
informao vai alm, levando em conta a sintaxe e a semntica daquela informao, buscando
satisfazer o que o usurio est pesquisando (BAENZA-YATES E RIBEIRO-NETO, 1999).
Desta maneira a recuperao da informao tem assumido um papel diferenciado
na Cincia da Informao e na Cincia da Computao, pois aparece como elo final na busca
pela apresentao da informao mais adequada ao usurio no menor tempo possvel.
O processo de recuperao da informao no consiste apenas em tcnicas e
mtodos que envolvem o armazenamento e os algoritmos de recuperao, mas tambm em
adaptar os sistemas no comportamento do usurio, entendendo desta maneira, como a
construo da informao e das instrues para a recuperao da informao (SANTAREM
SEGUNDO, 2010).
Com o surgimento da Web houve grande aumento no volume das informaes
eletrnicas, que trouxeram muitas vantagens quanto possibilidade de troca, difuso e
transferncia de dados. Entretanto, este crescimento trouxe muitos problemas relacionados ao
acesso, busca e recuperao das informaes de real valor imerso em grandes volumes de
dados (MODESTO, 2013).
Assim, um dos desafios da recuperao da informao conseguir fazer com os
Ambientes Informacionais Digitais entendam o que o usurio est necessitando, de forma que
os resultados vindos da busca possam ser de real valor e importncia para o usurio.
1.1.
Definio
O termo Recuperao da Informao foi trazido pela primeira vez em 1951, por
18
Mooers (1951), quando definiu os problemas que seriam tratados por esta nova disciplina.
Desta maneira a Recuperao da Informao trata dos aspectos da descrio e especificao
das buscas da informao. Tratando tambm de qualquer sistema, tcnicas e mquinas
utilizadas no processo de recuperao da informao.
Desta maneira o processo de Recuperao da Informao, consiste em encontrar
em um conjunto de documentos de um sistema, quais so os que atendem s necessidades
informacionais do usurio. Assim, o usurio no est interessado em recuperar dados, nem
achar documentos que satisfaam sua expresso de busca, e sim em encontrar a informao
sobre um determinado assunto (FERNEDA, 2003).
Assim os sistemas de Recuperao de Informao devem representar os
documentos e apresenta-los aos usurios de maneira que, o usurio atravs daqueles
documentos recuperados consigam satisfazer total ou parcialmente as suas necessidades
informacionais (FERNEDA, 2003).
1.2.
atender as necessidades dos usurios de forma que, consiga-se atender exatamente aquilo que
ele busca. Isto se torna muito complexo, pela tarefa do computador ter uma linguagem
diferente daquela que o usurio possui, de forma que o usurio precisa passar aquilo que ele
necessita, e o computador necessita entender isto.
Desta maneira, vrios autores sugeriram muitos modelos para a realizao da
recuperao da informao. Abaixo os modelos foram divididos em uma classificao bsica,
a de modelos quantitativos e de modelos dinmicos.
1.2.1.1.
Modelo booleano
O modelo booleano se baseia na lgica como base. A lgebra booleana um
sistema binrio, onde os dados podem assumir somente dois estados, 0 ou 1, falso ou
verdadeiro.
O modelo booleano se encontra em quase todos os sistemas de buscas de
informao, pois este a principal maneira de realizar expresses de busca. E quando
apresenta uma quantidade muito grande ou muito pequena de dados, possvel ir aumentando
ou diminuindo o nmero de documentos, at atingir a quantidade desejada.
Porm o modelo booleano apresenta a desvantagem de no conseguir ordenar os
documentos resultantes de uma busca. E hoje esse modelo no seria o mais adequado para os
modernos sistemas de busca de texto integral, como motores de buscas da Web, onde o
ordenamento dos documentos fundamental frente a enorme quantidade de dados que so
recuperados (FERNEDA, 2003).
1.2.1.2.
Modelo Vetorial
O modelo vetorial foi criado por Salton (1988) em 1968, motivado pelas
20
um termo de consulta e a este e atribudo um peso que indica tamanho e direo do vetor de
representao. So esses pesos que possibilitam a proximidade de consulta e o clculo da
similaridade parcial entre os termos da consulta e os documentos, possibilitando que os
resultados sejam grau de similaridade entre o termo na expresso de busca e o documento
recuperado. O clculo de proximidade entre os vetores e realizado de acordo com o angulo
do vetor, e dessa forma e calculado o grau de similaridade. [...]
[...] No modelo vetorial, a consulta e realizada em busca dos termos designados, e a
classificao apresentada como resultado baseia-se na frequncia dos termos no documento
em relao ao peso atribudo a cada termo, utilizando-se o grau de similaridade calculado.
[...]
Desta maneira, o modelo vetorial vai utilizar pesos tanto para os termos de
indexao quanto para os termos de expresso de busca, conseguindo desta maneira ter um
valor que representa a relevncia de um documento perante a expresso de busca
(FERNEDA, 2003).
O modelo vetorial tem como desvantagem o no uso de expresses booleanas, que
em alguns momentos podem ter uma grande valia, alm disso, este modelo se caracteriza por
aproximar muito as combinaes, podendo encontrar relaes, que no tenham de fato
relao.
1.2.1.3.
Modelo Probabilstico
A teoria probabilstica dentro da matemtica, efetua o clculo da chance de
21
1.2.2.1.
Redes Neurais
O crebro humano composto por uma quantidade muito grande de neurnios. O
1.2.2.2.
Algoritmos Genticos
Os algoritmos genticos tm como base a gentica, que afirma que todo ser herda
caractersticas de seu pai e sua me, sendo que pode herdar mais ou menos caractersticas de
seus genitores.
Este modelo interessante no uso da Recuperao da Informao, pois interage
diretamente com o usurio, de modo que o comportamento do usurio ir influir diretamente
nas prximas buscas realizadas.
A cada iterao (gerao) que existe no sistema, um novo conjunto de estruturas
so criadas, que utilizam as informaes provenientes das geraes anteriores, e esses
22
conjuntos iro se adaptando ao ambiente, at um ponto que as estruturas criadas esto muito
prximo de uma soluo tima (FERNDEDA, 2009)
Ferneda (2009) afirma que os algoritmos genticos aplicados aos sistemas de
Recuperao da Informao representam uma nova maneira de ver este processo, pois a
representao dos documentos, ser alterado conforme o que o sistema for aprendendo com o
usurio.
1.3.
No terceiro captulo ser abordado o tema da ontologia, onde neste trabalho, fazse uso de ontologias para poder aprimorar o processo de Recuperao da Informao neste
ambiente da Web.
1.4.
24
2. Big Data
Este captulo tratar conceitos relacionados Big Data, e como este se organiza e
pode ser utilizado em pesquisas e em empresas.
2.1.
Definies
Atualmente vive-se um momento de grande gerao e uso das informaes
tambm a
outros
aspectos
capturados e processados, quase que em tempo real, dando assim, vantagens competitivas as
organizaes (MCAFEE, 2012). Na figura 3 ilustrada a relao entre os trs aspectos que
McAfee considera principais neste processo que so o volume, a velocidade e a variedade:
Volume: O nmero de dados gerados todos dias na web ultrapassam 2,5 exabytes, e
este nmero tem dobrado a cada quarenta meses, em breve a unidade de medida de
dados ser o zetabytes. Algo que faz com que este volume cresa de forma
exponencial, que a prpria Web fornece possibilidades para uma criao de novas
informaes, como as redes sociais, onde o usurio acaba gerando cada vez mais
dados (ZIKOPOULOS E EATON, 2011). Todas as informaes geradas so
armazenadas, como dados financeiros, mdicos, compras realizadas na internet,
conversas realizados pelos mensageiros, gerando assim um volume extremamente
grande de dados.
25
Variedade: as formas que os dados esto armazenados so cada vez mais diversas,
entre elas textos, msicas, vdeos, imagens. E isto promove que no exista um
padro com que os dados so gerados e/ou armazenados. Segundo Kakhani (2013)
os dados podem ser no-estruturados, semiestruturados ou estruturados, sendo de
uma natureza heterognea, pois os dados podem vir de mdias sociais, de blogs,
sendo desde textos no-estruturados, vdeos e fotos, no tendo, assim, uma
estrutura fixa e definida.
Veracidade: todos os dados presentes neste universo, podem ser das mais diversas
naturezas, portanto necessrio que se tenha dados que sejam verdadeiros, para
no trazer informaes equivocadas, ao final de um estudo (KAKHANI, 2013).
26
das
informaes
(informaes
cada
vez
mais
precisas)
(MAYER-
2.2.
cada vez mais o nmero de dados crescem e as mdias de informaes armazenadas tambm
aumentam.
O armazenamento das informaes geradas um grande desafio, pois atualmente
um disco consegue armazenar por volta de poucos terabytes. E os nmeros da web giram em
torno de exabytes, ou seja, necessita-se de muitos discos para conseguir fazer este
armazenamento. Na tabela 1 possvel verificar os nmeros da web atualmente (KAISLER,
2003).
Tabela 1: Quantidade de Dados Gerais (Kaisler, 2003)
Descrio
Mdias Sociais
110
TBytes
por
domnio
de
2.3.
utilizados como subprodutos das vendas, e no como produto propriamente dito. Por mais que
sempre essas informaes foram valorizadas, nunca isto aconteceu como agora na poca do
28
Big Data, onde os dados viraram o produto, onde as empresas perceberam que dados antes
desprezados podem ter um valor muito grande, como por exemplo, as buscas realizadas em
um motor de busca, os caminhos indicados pelo GPS, ou quais foram os produtos pesquisados
antes do consumidor fechar uma compra.
Todos esses dados, a partir de um momento podem ser reaproveitados para
publicidade, ou para sugerir uma busca mais adequada quele usurio, e assim ter um
reaproveitamento das informaes, tendo um alto valor agregado.
Este fenmeno tambm causado pelo fato de que antes, no era possvel coletar,
armazenar e analisar tais dados, e hoje no existem mais essas limitaes para fazer isto.
Sendo que possvel captar quantidades enormes de informaes e as armazenar de uma
maneira barata, pois o discos de armazenamento, hoje tem um custo muito menor do que
anteriormente. Tambm possvel registrar uma quantidade muito grande de informaes,
como em um site de vendas, que consegue guardar cada clique dos usurios para oferecer os
produtos mais adequados para aquele cliente e uma fbrica que consegue controlar tudo o que
est acontecendo dentro de sua linha de produo.
Neste contexto, muito alm de se utilizar os dados apenas como o valor
apresentado naquele momento, os dados tm um valor que aparece de maneira oculta, e pode
ser utilizado de forma que no tem um relacionamento direto com as informaes que aquele
dado est apresentando. Um exemplo disto saber a incidncia de doenas apenas pelas
buscas realizadas em um motor de buscas.
Neste sentido, o valor que os dados podem ter, muito grande, e MayerSchnberguer e Cukier (2013) define trs modos principais de se extrair os valores dos dados:
a reutilizao bsica, a fuso de banco de dados e a utilizao de um mesmo dado em diversos
cenrios.
30
Uma forma de conseguir reutilizar os dados, fazer com que os dados sejam
coletados j pensando na utilizao destes para outras funes, ou seja, realizar mecanismos
que no momento da extrao dos dados, consiga-se retirar ou utilizar os dados, de uma
maneira que estes possam ser uteis para outras necessidades.
Um exemplo disto, seria de varejistas, onde muitos tem utilizados as cmeras de
vdeo, alm de fazer a segurana, ou seja, para verificar se algum levou algum produto de
maneira irregular, mas tambm para verificar o movimento de pessoas na loja, e os momentos
de maiores fluxos no dia, ou na semana (MAYER-SCHNBERGER E CUKIER, 2013).
2.4.
so
em grande
quantidade,
trazendo
grandes
problemas
para o
Mdias Sociais: uma grande parte do uso do Big Data voltado para as mdias
sociais, como quais so os sentimentos dos clientes pelos produtos das empresas.
Portanto estar atento, ao que os clientes esto falando a respeito das empresas,
uma informao muito importante, podendo modificar decises e estratgias.
2.5.
Inteligncia Competitiva
Saber tomar as decises corretas, em cima de bases e nmeros e anlises
CHOO, 2001).
A IC, baseia-se em trs princpios, que so a classificao e o armazenamento das
informaes, a anlise e interpretao dos dados e a disseminao da informao. Sendo que a
inteligncia dar as empresas uma vantagem competitiva pois ir fornecer bases para que as
empresas sejam capazes de conhecer melhor seu concorrente, e ser capaz assim de ter um
planejamento muito mais adequado (TEO E CHOO, 2001).
2.6.
oferecer, necessrio organizar o contedo dentro da Web, de uma forma que os dados ali
contidos apresentem uma semntica em sua estrutura. Desta forma, ontologias se apresentem
como uma soluo para este problema, pois conseguem contextualizar as informaes que se
relacionam com esta.
33
3.1.
Web Semntica
Em 1989 Tim Berners Lee propes a criao da Web, idealizando tambm
34
Rules: nela feita a converso das informaes que esto dentro de um documento
para outro, criando regras de inferncia (PRADO, 2004).
35
Proof: pode-se depois de passar por vrias camadas, fazer uma prova deste
documento, ou seja, pode-se provar hipteses a partir das informaes.
3.2.
Definio de Ontologia
A palavra ontologia vem de ontos (ser, ente) e logos (saber, doutrina), e de
maneira estrita significa o estudo do ser. Surgiu do estudo de filsofos, ainda na poca de
Aristteles, e era usada neste contexto para fazer uma abordagem do ser enquanto ser, ou seja
do ser de uma maneira geral. Mais tarde ainda na filosofia, o termo ontologia passou a ser
mais usado para saber aquilo que fundamental ou irredutvel, comum a todos os seres.
Dentro da Computao, Guarino (1998) diz que a ontologia uma teoria lgica
que representa um vocabulrio pretendido, ou seja, uma contextualizao de algo particular
existente no mundo. Neste sentido observa-se que com uma ontologia voc consegue definir
contextos e domnios particulares do mundo.
36
Ontologia de tarefa (task ontology): resolvem uma tarefa (um problema) dentro de
um domnio. Ou seja dentro de um domnio, trata de algo especfico, como uma
doena dentro da medicina, ou compra e vendas de veculos.
Berners-Lee (2001b) diz que para uma semntica dentro da web funcione,
importante que a mquinas tenham acesso a colees estruturadas de informaes e que
tenham regras de inferncias que conduzam a mquina no processo de busca automatizada.
Dentro deste processo a ontologia aparece como uma soluo neste sentido, pois a
ontologia, conforme visto nos conceitos apresentados acima, ser um conjunto estruturado de
informaes.
3.3.
Construo da Ontologia
Segundo Clark (1999), uma ontologia organizada em hierarquias de conceitos,
por causa de no refletir de forma ideal nenhum formalismo especfico, ento pode-se
considerar uma ontologia como a materializao do nvel de conhecimento.
Tambm para a construo da ontologia, Gruber (1995) destaca alguns pontos que
devem ser considerados na construo da ontologia:
38
existem muitos tipos diferentes de critrios para ser usados, mais fcil inserir
novos conceitos e herdar as propriedades de diversos critrios e pontos de vistas.
Padronizar os nomes quando for possvel: para que no exista uma inconsistncia
nos nomes das classes.
3.4.
como
Ontolingua
(http://www.ksl.stanford.edu/software/ontolingua/)
Ontology
ou
DAML
Library
Ontology
Library (http://www.daml.org/ontologies/)
3. Levantar termos importantes: fundamental para a construo da ontologia fazer
um levantamento de vrios termos que so importantes para aquele cenrio, para ter
uma base de quais sero as classes, propriedades e hierarquia da ontologia.
4. Definir classes e sua hierarquia: Uschold e Gruninger (1996) definem que existe
diversas maneiras para desenvolver uma hierarquia de classes da ontologia. Como
a top-down, onde a modelagem comea dos conceitos mais gerais, e posteriormente
a construo da hierarquia dos conceitos abaixo. Tambm existe o bottom-up, onde
o processo de desenvolvimento comea dos conceitos mais especficos, e depois
vai para os conceitos mais genricos. E existe uma terceira forma, chamado de
combinao, onde este processo uma combinao entre o mtodo de bottom-up e
top-down, sendo definidos os conceitos mais importantes a princpio, e depois, feito
uma generalizao e uma especificao destes conceitos. O mtodo para a
construo deve ser escolhido segundo a necessidade e o conhecimento acerca do
domnio.
5. Definir propriedades das classes: Nesta etapa deve-se observar os termos listados
no passo trs, e ento, observar quais termos so propriedades de alguma classe, e
assim encaixa-las dentro desta.
6. Restries das Propriedades: Neste passo deve-se observar as restries de cada
propriedade, como cardinalidade e os tipos de dados das propriedades.
7. Criao de instncias: aqui, criado objetos (instncias) das classes, pois muitas
vezes estes valores j devem estarem definidos dentro da ontologia. Assim, deve
ser criado um objeto da classe e ser preenchido as propriedades da classe, cujo a
instncia foi criada.
40
A partir destes passos, possvel ento, construir uma ontologia que siga regras, e
tenha uma boa consistncia.
3.5.
ontologia como o RDF, OWL, Ontolingua/KIF entre outros. Todas estas linguagens
conseguem representar uma ontologia, tendo que ser verificado as necessidades de cada caso,
para assim poder escolher qual a mais adequada (PRADO, 2004).
Em 2004, a W3C recomendou a linguagem OWL (W3C, 2014g) para a construo
de ontologia. A seguir descrito com mais detalhes esta linguagem.
3.5.1. OWL
A OWL (Web Ontology Language Linguagem de Ontologia para Web) uma
linguagem criada para representar uma ontologia. Ela usada em aplicaes que necessitam
processar o contedo de uma informao e deixa-la disponvel para uma mquina realizar a
leitura. A OWL proporciona uma maior capacidade de interpretao dos contedos da Web
pelos computadores do que utilizando linguagens como o XML, o RDF e o RDF Schema
(NAKAMURA, 2011).
Neste sentido, o uso da OWL possibilita que vocabulrios mais ricos sejam
adicionados para fazer a descrio das classes, para assim fazer comparaes entre as classes,
restringir cardinalidades e caractersticas das propriedades.
A linguagem OWL foi desenvolvida para satisfazer as necessidades da Web
Semntica, num sentido de agregar o contexto nas informaes.
A linguagem OWL dividida em trs sub linguagens que devem ser escolhidas
conforme a necessidade de cada projeto:
OWL Lite: uma definio mais simples de hierarquia de classes e com restries
mais simples, onde por exemplo a cardinalidade que pode ser adotada nesta
sublinguagem, seria apenas valores 0 e 1. mais utilizada para uma migrao mais
simples de tesauros e outras taxonomias. Oferecendo uma formalidade muito mais
baixa.
41
esta sublinguagem
j apresenta uma
OWL Full: a linguagem OWL completa com todas as suas funes sem
restries, sem ter a garantia que um sistema conseguir entender o que est
descrito naquela OWL.
3.5.1.1.
Elementos do OWL
Todas as classes do OWL so subclasses de owl:Thing, e a linguagem OWL
possibilita que estas classes tenham propriedades de elementos e de restries. Abaixo segue
algumas destas propriedades (ANTONIOU E HARMELEN, 2004):
Propriedade de elemento
o Propriedades de Objeto: utilizado para relacionar um objeto com outro,
exemplo: supervisor de.
o Propriedade de Tipo de Dados: utilizado para relacionar objetos com tipos
de dados. Um exemplo disto seria os dados como telefone, idade, entre
outros.
Propriedade de restrio
o Todos os valores de (owl:allValuesFrom): utilizada para definir quais so
os valores possveis que a propriedade especificada por owl:onProperty
pode ter.
o Tem o valor (owl:hasValue): define um valor determinado para a
propriedade especificada por owl:onProperty pode ter.
o Algum valor de (owl:someValuesFrom): tem a funo de determinar a
classe e a ocorrncia de pelo menos um valor dentre as propriedades.
o Cardinalidade Mnima (owl:minCardinality): restringe o valor mnimo de
um relacionamento.
o Cardinalidade Mxima (owl:maxCardinality): restringe o valor mximo
dentro de um relacionamento.
Propriedades Especiais
42
o Propriedade
Transitiva
(owl:TransitiveProperty):
define
que
uma
3.6.
ambiente Protg (STANFORD, 2014), que auxilia neste processo, ajudando para que a
modelagem e a construo da ontologia se torne mais simplificada.
3.6.1. Protg
O Protg uma ferramenta usada para o desenvolvimento de sistemas baseados
em conhecimento. Esta ferramenta permite que seja construda uma ontologia de domnio ou
uma base de conhecimento, permitindo, para auxiliar neste processo, a construo de
diagramas e de grficos.
O sistema open-source construdo em Java e pode ser instalado direto no
computador desktop ou ser executado direto na Web (PRADO, 2004). A tela inicial do sistema
pode ser vista na figura 2.
43
Nesta figura possvel verificar que dentro deste sistema tem a aba classes, object
properties, data properties. Na aba classes so construdas as classes e as relaes de
hierarquia entre elas, j na aba object properties so construdas as relaes entre duas classes
e na aba data properties, fica as propriedades de dados de cada classe (por exemplo idade,
data de nascimento, CPF).
44
45
4.1.
Espao de Persistncia
No espao de persistncia ocorre o armazenamento das informaes que so
extrados pelo agente de busca. Este armazenamento pode ocorrer tanto em Sistemas
Gerenciadores de Banco de Dados relacionais, quanto em Banco de Dados NoSQL (Not Only
SQL No apenas SQL). A persistncia pode ocorrer destas duas maneiras pelo fato de que as
informaes extradas podem ser, tanto dados estruturados quanto dados no estruturados.
Desta forma os dados estruturados podem ser armazenados em cima de bancos de
dados relacionais, que apresentam regras bem definidas, e consegue dar uma integralidade
maior aos dados que so armazenados.
J dentro da Web, existe uma grande quantidade de dados que so
semiestruturados ou no-estruturados, ou seja, no seguem regras, ou no tem uma estrutura
exatamente definida. Assim, necessrio que estes dados sejam armazenados em bancos de
dados NoSQL, que apresentam caractersticas de no ter um esquema totalmente definido, e
que permite uma flexibilidade maior ao armazenar estas informaes.
4.2.
Espao de Representao
O espao de representao tem a funo de definir os padres de metadados para
que seja realizado a busca pelo agente e que assim consiga posteriormente definir como os
dados sero representados e armazenados nos bancos de dados.
46
4.3.
Espao Semntico
O espao semntico tem a funo de inserir uma semntica nas buscas realizadas
pelo agente de busca. Sendo possvel que a busca realizada pelo agente, leve em considerao
o contexto na qual aquela informao est inserida.
Esta semntica pode ser alcanada atravs do uso de uma estrutura ontolgica, que
analisa o domnio do contexto que se deseja buscar as informaes.
4.4.
recuperao de informao, que tem a funo de ser o gerenciador das buscas e de realizar a
recuperao propriamente dita.
Neste espao tambm, fica o Agente Semntico de Extrao, este agente ficar
responsvel por extrair os dados dos ambientes informacionais. Este agente utiliza da
ontologia para conseguir realizar a busca semntica.
4.5.
Espao Informacional
O espao informacional contempla toda a Web e as bases de dados internas, que
sero utilizados como fontes para a extrao do agente de buscas. Portanto, todos os dados
esto dentro do espao informacional, que necessita ser extrado, para se tornar conhecimento
para quem for utiliz-lo.
Neste trabalho foi construdo esta arquitetura de forma parcial, sendo realizado o
espao semntico, onde foi construda uma ontologia. Tambm foi utilizado o Agente
Semntico de Extrao e o espao informacional. Sendo tambm construda toda a relao
entre estes espaos.
Esta arquitetura busca provar o uso de ontologias para conseguir inserir
semntica, dentro de um contexto de Big Data, que faz uso de um nmero muito grande de
informaes.
Para provar isto, este projeto, funciona de maneira que, o espao informacional
so bases de dados de artigos cientficos, no caso, foi utilizado a base de dados do IEEE
Xplore (http://ieeexplore.ieee.org).
47
48
5. Definir propriedades das classes: este passo no foi realizado devido o fato que
nesta ontologia, no h a necessidade de levar em considerao as propriedades de
cada n da ontologia, pois o mais importante a relao entre as classes
propriamente dita;
6. Restries das Propriedades: como no h propriedades, no necessrio tratar das
restries entre estas;
50
inglesa.
Esta modelagem mostrada na figura 7, representa um arquivo OWL, que mostra
as classes e as relaes entre elas. Este arquivo OWL, foi utilizado para que a ontologia, fosse
representada em classes Java, atravs do software Owl2Java (2009), que realiza esta
transformao, descrevendo toda estas relaes entre as classes da ontologia, mesmo nas
classes Java.
52
6.1.
Extrao da informao
O agente extrai da pgina do IEEE Xplore (http://ieeexplore.ieee.org), os resumos,
baseado na pesquisa que o usurio executa. Baseado na localizao dos resumos no HTML na
pgina, o agente extrai as informaes, e transforma isto numa cadeia de String. Na figura 8
visto o processo de funcionamento do rob de busca.
Busca na pgina HTML: esta primeira fase se caracteriza por realizar uma busca
no sistema de busca do IEEE Xplore, de forma que a busca realizada se
caracteriza por uma requisio a este sistema, sendo inserido na url, qual o
tema que o usurio deseja buscar. Por exemplo, caso o usurio deseje realizar
uma busca sobre Datawarehouse, o agente ir abrir uma conexo, e buscar no
seguinte endereo (http://ieeexplore.ieee.org/search/searchresult.jsp?newsearch
=true&queryText=datawarehouse). A partir disto a pgina do IEEE, ir retornar
um HTML, contendo os artigos relacionados a este tema. Na figura 9 mostrada
como a pgina HTML do retorno.
seja, trabalha com a pgina HTML, de maneira que consiga extrair os dados das
classes, tags e estruturas do HTML.
Criao de uma lista com os artigos extrados: por fim, o agente cria uma lista
contendo todos os artigos que foram extrados da pgina HTML. Esta lista ser
utilizada pelo programa principal que ir unir a ontologia com este agente de
recuperao de informao.
Desta forma, este rob de busca, consegue realizar uma extrao sinttica dos
artigos contidos na base de dados do IEEE Xplore, pois, o rob de busca recupera os artigos
que foram indexados pela prpria base de dados, criando uma lista com todos os artigos que
foram apresentados, para ser utilizado na ontologia.
6.2.
Para que o programa tenha de fato a semntica apresentada, o programa faz o uso
da ontologia, para avaliar quais dos resultados que foram extrados da base de dados, so de
fato teis, e tem relao com o contexto daquela busca.
Esta integrao acontece em cinco momentos:
55
6.3.
No caso do programa que foi implementado, o usurio necessariamente precisa realizar uma
busca relacionado a banco de dados. Na figura 11, possvel visualizar a tela para o usurio
realizar a busca.
56
Aps o usurio escrever o que ele necessita, o sistema ir fazer os passos descritos
nos captulos 6.1. e 6.2., onde o sistema faz a integrao da pesquisa do usurio, com a
extrao realizada no site do IEEE Xplore, com a ontologia.
Aps realizar estes passos, o sistema retorna para o usurio, uma tela contendo
quais so os artigos e os links destes artigos, que o sistema extraiu e verificou que tinha
relao com a busca realizada pelo usurio. Este resultado possvel visualizar na figura 12,
onde so apresentados os nomes e os links, para que o usurio possa acessar ao artigo
completo.
57
58
7. Resultados
Como teste para averiguar se o sistema est extraindo e verificando a semntica
dos artigos extrados, foi feita uma busca com o usurio pesquisando pelo termo
Datawarehouse, como mostrado na figura 11.
A hierarquia do termo Datawarehouse so os termos: Database, Datawarehouse,
OLAP, OTAP e modeling.
Na tabela 2, possvel visualizar todos os ttulos dos artigos que foram extrados
do site do IEEE, a quantidade dos termos da cadeia da ontologia que foram encontrados no
resumo e no ttulo, a relao entre os termos encontrados no artigo e os termos da cadeia da
ontologia do termo Datawarehouse (no caso ser a porcentagem resultante da diviso entre
a quantidade de palavras encontradas na ontologia por 5, que so os termos contidos na
hierarquia da cadeia de ontologia) e se este artigo atende ou no ao requisito mnimo de pelo
menos 35% dos termos contidos no resumo e no ttulo.
Tabela 2: Anlise dos Artigos Extrados
Ttulo
Testing a Datawarehouse - An Industrial Challenge
Qtd. de palavras
encontadas
Atende ao
requisito?
40
SIM
60
SIM
60
SIM
40
SIM
20
NO
20
NO
20
NO
40
SIM
20
NO
20
NO
20
NO
20
NO
59
20
NO
20
NO
20
NO
NO
40
SIM
NO
NO
NO
NO
40
SIM
20
NO
NO
20
NO
60
61
8. Concluses
Este trabalho apresenta o uso de ontologias na melhoria do processo de
Recuperao de Informao.
O objetivo desta pesquisa aderir semntica ao processo de Recuperao da
Informao, utilizando das informaes dentro do contexto do Big Data, para realizar um
processo que agregue mais valor s buscas realizadas pelo usurio.
Para comprovar este objetivo, foi utilizado o domnio de pesquisas cientficas, em
que o usurio ao realizar uma busca em bases de dados de artigos cientficos, se depara com o
problema de ter uma quantidade muito grande de documentos, sendo que boa parte destes,
no so de fato teis, no atendendo s necessidades que o usurio possui.
Foi, ento, criado uma ontologia e um rob de buscas e realizada a conexo entre
estes para alcanar desta maneira o objetivo inicial.
Para a realizao de testes, no sentido de averiguar o real funcionamento deste
processo, o rob de buscas foi implementado com a capacidade de extrair artigos da base de
dados do IEEE Xplore, e a ontologia foi construda utilizando o domnio da disciplina de
banco de dados.
Aps a realizao de testes, foi observado que o uso de ontologia para o agente de
pesquisa uma maneira eficaz para se obter informaes de valor e conseguir atender as
necessidades informacionais do usurio.
A ontologia pode ser eficiente no presente processo, porque se torna uma forma de
organizar a informao semntica, e assim, apenas a informao significativa ser apresentada
ao usurio.
Embora o termo Web Semntica usado j a alguns anos, ainda existe uma
limitao em seu uso, porque grande parte da Web est organizada de uma forma sinttica, em
que a maioria das pginas so criadas para que apenas o ser humano consiga ler o que l est
escrito, sem serem estruturadas de uma maneira que agentes computacionais consigam extrair
os dados ali contidos dentro de um contexto, com um significado implcito dentro do HTML.
O agente de extrao consegue retirar os documentos da Web e um programa
consegue por meio do uso de ontologia, tratar as informaes, conseguindo assim apresentar
resultados mais relevantes aquele usurio.
Desta maneira os resultados obtidos com a utilizao do prottipo desenvolvido,
62
consegue refinar bastante a quantidade de artigos apresentados aos usurios. Esta pesquisa,
busca portanto, fazer com o que o usurio obtenha, em um processo de Recuperao de
Informao, resultados mais expressivos e que apresente maior valor. Assim, o usurio
conseguir avaliar informaes mais expressivas, e no perder tempo com aqueles dados que
no tem atende suas necessidades.
Portanto, para tratar a questo de como inserir uma inteligncia na recuperao de
pginas Web que no apresentam uma contextualizao de suas informaes, esta pesquisa
prope que o processo de aderir semntica a estas pginas ocorra fora da Web, ou seja, a
extrao das pginas ocorra de maneira sinttica, e a partir do que foi extrado, ocorra uma
anlise das informaes, inserindo desta forma semntica a este processo. Este mtodo se
mostrou muito eficiente, pois consegue de fato realizar uma busca mais inteligente, que vai
alm de simples frmulas de buscas, que observam apenas a sintaxe dos textos, e consegue
analisar o contexto na qual os documentos extrados esto inseridos, e assim visualizar se
aquele documento atende ao que o usurio necessita.
63
Referncias Bibliogrficas
Antoniou, G. e Van Harmelen, F. A semantic web primer. MIT press, 2004.
Baeza-Yates, R.; Ribeiro-Neto, B. Modern information retrieval. New York: ACM; Harlow:
Addison-Wesley, 1999.
Bentlet, P. J. Biologia digital: como a natureza est transformando nossa tecnologia e
nossas vidas. So Paulo: Berkeley Brasil, 2002.
Beppler, Fabiano D. et al. Uma arquitetura para recuperao de informao aplicada ao
processo de cooperao universidade-empresa. KM Brasil, So Paulo, Brasil, 2005.
Berners-Lee,
T.
Information
Management: A Proposal.
1989.
Disponvel
em
T.
Semantic
Web
Road
Map.
1998.
Disponvel
em
E.
Aplicando
algoritmos
genticos
na
recuperao
de
informao,
Mayer-Schnberger, V., e Cukier, K. Big data: A revolution that will transform how we
live, work, and think. Houghton Mifflin Harcourt, 2013.
McAfee, A., et al. Big Data. The management revolution. Harvard Bus Rev 90.10. 61-67.
2012.
Modesto, L. R. Representao e Persistncia para acesso a Recursos Informacionais
Digitais gerados dinamicamente em stios oficiais do Governo Federal. 2013. 103 f. Tese
(Doutorado em Cincia da Informao) Faculdade de Filosofia e Cincias, Universidade
Estadual Paulista, Marlia. 2013.
Mooers, C. Zatocoding applied to mechanical organization of knowledge. American
Documentation, Washington, v. 2, n. 1, p.20-32. 1951.
Nakamura, L. H. V. Utilizao de Web Semntica para Seleo de Informaes de Web
Services no Registro UDDI uma abordagem com qualidade de servio. 2012. 148 f.
Dissertao (Mestrado em Cincias de Computao e Matemtica Computacional). Instituto
de Cincias Matemticas e de Computao, Universidade de So Paulo, So Carlos. 2011.
Noy, N. F., e McGuinness, D. L. Ontology development 101: A guide to creating your first
ontology. 2001.
Owl2Java. A Java Code Generator for OWL, 2009.
Prado, S. G. D. Um Experimento no Uso de Ontologias para Reforo da Aprendizagem
em Educao Distncia. 2004. 177 f. Tese (Doutorado em Engenharia). Escola
Politcnica, Universidade de So Paulo, So Paulo. 2004.
Prazeres, C. V. S. Servios Web Semntica: da modelagem composio. 2009. 189 f. Tese
(Doutorado em Cincia da Computao). ICMC, Universidade de So Paulo, So Carlos.
2004.
Prescott, J. E. The evolution of competitive intelligence. International Review of Strategic
Management 6. 71-90. 1995.
Sagiroglu, S., e Sinanc, Duygu. Big data: A review. Collaboration Technologies and Systems
(CTS), 2013 International Conference on. IEEE, 2013.
Salton, G.; Buckley, C. Term-weighting approaches in automatic text retrieval.
Information Processing & Management, Oxford v. 24, n. 5, p. 513 523, 1988.
Santarem Segundo, J. E. Representao Iterativa: um modelo para Repositrios Digitais.
2010. 224 f. Tese (Doutorado em Cincia da Informao) Faculdade de Filosofia e Cincias,
Universidade Estadual Paulista, Marlia. 2010.
Silva, T. M. S. Extrao de informao para busca semntica na web baseada em
66
ontologias. 2003.
Stanford University. Protg. Disponvel em <http://protege.stanford.edu/> acesso em 3 de
maio de 2014.
Souza, R. R., e Alvarenga, L. A Web Semntica e suas contribuies para a cincia da
informao. Cincia da Informao, Braslia 33.1. 132-141. 2004.
Teo, T. S. H., e Choo, W. Y. Assessing the impact of using the Internet for competitive
intelligence. Information & management 39.1. 67-83. 2001.
UNICODE.
que
Unicode?
2008.
Disponvel
em
The
need
for
universal
syntax.
2014b.
Disponvel
em
Zikopoulos, P., e Eaton, C. Understanding big data: Analytics for enterprise class hadoop
67
68