Você está na página 1de 18

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMTICA PROGRAMA DE PS-GRADUAO EM COMPUTAO

ALEXANDRE LORENZATTI

Anlise de modelos para a representao de conhecimento visual

Trabalho Individual I TI-xxx

Profa. Dra. Mara Abel Orientador

Prof. Dr. Claiton Scherer Co-orientador

Porto Alegre, dezembro de 2008

SUMRIO

LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ABSTRACT 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 4 5 6 7 9 9 11 12 13 15 15 15 17 18

INTRODUO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 MODELOS DE REPRESENTAO DE CONHECIMENTO VISUAL . . 2.1 Uma Abordagem Baseada em Ontologia para Representao de Conhecimento Visual: Anotao e Interpretao de Imagens . . . . . . . . . . 2.2 Ancoramento Simblico para Interpretao Semntica de Imagens: de Dados Imagsticos a Semnticos . . . . . . . . . . . . . . . . . . . . . . . 2.3 Construtos Ontolgicos para Representao Simblica de Conhecimento Visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Uma Ontologia de Formatos para a Classicao de Pssaros . . . . . . 3 COMPARAO ENTRE MODELOS . . . . . . . . . . . . . . . . . . . 3.1 Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Comparativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 CONCLUSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

REFERNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

LISTA DE FIGURAS

2.1 2.2 2.3 2.4 2.5 2.6

K-graph da interpretao de um ambiente diagentico. (Extrada de (SILVA et al., 2004)) . . . . . . . . . . . . . . . . . . . . . . . . . . K-graph de um pacote visual. (Extrada de (SILVA et al., 2004)) . . . Ontologia de conceitos visuais referentes geometria. (Extrada de (MAILLOT; THONNAT; BOUCHER, 2004)) . . . . . . . . . . . . . Comunicao entre nveis de descrio das imagens. (Adaptada de (MAILLOT; THONNAT; BOUCHER, 2004)) . . . . . . . . . . . . . Nveis do modelo de representao de conhecimento. (Extrada de (SANTIN, 2008)) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ontologia de formato de pssaros com elementos pictricos. (Extrada de (LIU et al., 2007)) . . . . . . . . . . . . . . . . . . . . . .

9 10 11 12 13 14

LISTA DE TABELAS

3.1

Comparativo entre modelos . . . . . . . . . . . . . . . . . . . . . .

16

RESUMO

A representao do conhecimento visual um problema ainda em aberto. Diferentes abordagens utilizam modelos de representao de conhecimento visual para representar o contedo de imagens. Neste trabalho, primeiramente apresenta-se uma breve discusso a respeito do conceito de conhecimento e sua representao. Diferentes modelos de representao so descritos de acordo com suas formas de representar o conhecimento visual. Ao nal, so apresentadas as principais caractersticas em comum aos modelos, assim como os modelos so comparados atravs dessas.

Palavras-chave: Conhecimento visual, modelos de conhecimento.

Analysis of models to represent visual knowledge

ABSTRACT

Visual knowledge representation is still an open problem. There are different approaches using knowledge models to represent visual content from images. In this work, a brief discussion about the knowledge concept and representation of knowledge is given. Different models are described according to their form in representing visual knowledge. At the end, the main common characteristics are presented and the models are compared over them.

Keywords: Visual knowledge, knowledge models.

INTRODUO

A representao de conhecimento atravs de modelos motivada pela necessidade de interligar informaes do nvel simblico com o nvel conceitual, ou seja, o nvel onde os conceitos residem. Conceito denido como uma idia ou noo geral. Conceitualizar o ato ou poder de formar noes, idias ou conceitos na mente (DALGISH, 2001). Uma conceitualizao uma viso simplicada e abstrata do mundo, que desejamos explicit-la por algum motivo (GRUBER, 1993). O conhecimento formalmente representado baseado em uma conceitualizao. Brachman e Levesque, (BRACHMAN; LEVESQUE, 2004) denem conhecimento como uma relao entre seu detentor e uma proposio, como por exemplo Alexandre sabe que o Rio Grande do Sul um estado onde o detentor Alexandre e a proposio o Rio Grande do Sul um estado. O que relevante a natureza da proposio, o que se pode falar sobre ela, ou seja, se ela verdadeira ou falsa, correta ou errada. O conceito de representao losocamente semelhante ao conceito de conhecimento. A representao uma relao entre dois domnios onde o primeiro remete ao segundo. Usualmente, o primeiro domnio algo mais concreto que o segundo. Por exemplo, uma placa de trnsito no formato de um tringulo remete idia de dar a preferncia de passagem para outros veculos. A representao feita atravs smbolos formais, ou seja, um caracter ou um conjunto de caracteres provenientes de um alfabeto (BRACHMAN; LEVESQUE, 2004). Segundo Brachman e Levesque a representao feita dessa maneira pois assume-se ser mais fcil manipular smbolos do que aquilo que eles representam. No exemplo citado anteriormente pode-se representar a proposio o Rio Grande do Sul um estado por P, assim temos Alexandre sabe que P, ou ainda, Alexandre sabe que verdade que P. A representao de conhecimento um campo de estudo cujo objetivo a utilizao de smbolos formais para representar uma coleo de proposies e criar representaes para novas proposies. Para que um sistema inteligente possa raciocinar, primeiramente deve ser possvel que ele formule e represente as idias envolvidas. Assim, torna-se necessria uma linguagem que possua sintaxe, semntica e pragmtica bem denidas. Raciocnio a manipulao formal de smbolos que representam uma coleo de proposies. Percebe-se que a utilizao de smbolos mais acessvel que a utilizao de proposies pois, podemos manipul-los computacionalmente para construir novas proposies (BRACHMAN; LEVESQUE, 2004). Uma imagem uma funo bidimensional f(x,y), onde x e y so coordenadas espaciais e o valor da funo f em quaisquer coordenadas (x,y) representa a intensidade da imagem naquele ponto (GONZALEZ; WOODS, 2007). O contedo de uma imagem pode representar diferentes conceitos e conceitualizaes. Porm, uma imagem representa conceitos

de forma no simblica. A proposta deste trabalho a anlise de diferentes modelos de representao de conhecimento visual para que seja proposto um modelo hbrido na rea da Estratigraa Sedimentar. Esse modelo hbrido ser constitudo por construtos simblicos e pictricos buscando a representao das conceitualizaes difceis de serem formalizadas.

2 MODELOS DE REPRESENTAO DE CONHECIMENTO VISUAL

Abordagens existentes para a interpretao semntica de imagens apresentam diferentes formas de organizar o conhecimento empregado no processo de interpretao. A seguir, so apresentados modelos de representao de conhecimento visual empregados no processo de interpretao semntica de imagens.

2.1

Uma Abordagem Baseada em Ontologia para Representao de Conhecimento Visual: Anotao e Interpretao de Imagens

A anotao de imagens guiada por ontologias permite a descrio semntica de objetos visuais presentes em imagens (SILVA et al., 2004). A proposta desse trabalho a anotao conceitual de imagens realizada em dois nveis. Esse modelo de representao de conhecimento visual foi aplicado na rea da geologia, mais especicamente na Petrograa Sedimentar, onde muitas decises so tomadas com base no conhecimento visual. No primeiro nvel, o usurio identica e faz a ligao entre objetos visuais observados e conceitos atmicos. Esses conceitos esto contidos em uma ontologia de domnio e so facilmente identicados por um novato da rea de aplicao. Os conceitos contidos na ontologia so construtos necessrios para a construo de pacotes visuais e grafos de conhecimento, constituintes do segundo nvel.

Figura 2.1: K-graph da interpretao de um ambiente diagentico. (Extrada de (SILVA et al., 2004)) O segundo nvel apresenta descries mais abstratas dos objetos observados, tais como

10

agregaes visuais (padres visuais). O conhecimento descrito no primeiro nvel serve como base para criao do conhecimento mais abstrato, que o que dar suporte ao desenvolvimento de tarefas de raciocnio. Os conceitos desse nvel so organizados em pacotes visuais, um novo conceito de modelagem de conhecimento visual criado por (ABEL, 2001). Os pacotes visuais representam organizaes e padres criados sobre o conhecimento visual que residem na mente do especialista. Assim, eles representam o conhecimento tcito, difcil de ser externalizado e formalizado, que um especialista detm.

Figura 2.2: K-graph de um pacote visual. (Extrada de (SILVA et al., 2004)) O conhecimento identicado atravs de pacotes visuais, associado interpretaes de nveis mais abstratos, formalizado atravs de grafos de conhecimento, do ingls knowledge graphs, (K-graphs). A gura 2.1 apresenta um K-graph onde o n raiz representa a hiptese de interpretao de um ambiente sedimentar. Seus ns folhas representam pacotes visuais, identicados por especialistas como evidncias da presena de um ambiente sedimentar. O valor entre parnteses indica o peso de cada pacote visual, ou seja, o grau de importncia daquele pacote para corroborar a hiptese. Caso identicados e a soma dos pesos seja superior a um determinado limite, no caso 6, ento o ambiente sedimentar em hiptese conrmado. O K-graph apresentado na gura 2.2 um detalhamento do pacote visual Iron Oxide. Seus ns folhas representam atributos visuais identicados pelos especialistas durante a descrio de estruturas sedimentares. Combinados logicamente, esses atributos apontam as evidncias necessrias para indicar a presena do pacote visual, dando suporte interpretao do ambiente sedimentar em hiptese.

11

2.2

Ancoramento Simblico para Interpretao Semntica de Imagens: de Dados Imagsticos a Semnticos

Ancoramento Simblico (Symbol grounding) um problema existente no processo de interpretao semntica de imagens. Esse problema consiste na diculdade de relacionar dados numricos de uma imagem com dados semnticos que representam e do signicado ao contedo da imagem. O trabalho de (HUDELOT; MAILLOT; THONNAT, 2005) apresenta uma abordagem que realiza a ligao entre esses dados atravs de um conjunto de nveis. A abordagem apresentada divide o processo de interpretao de imagens em trs nveis, low level que trata do processamento algortmico de imagens atravs da extrao de informaes de pixels e outras informaes numricas (ndices de saturao, rudo, brilho e etc) e da descrio dessas informaes atravs de uma ontologia de imagem. Visual level descreve simbolicamente os conceitos visuais da cena e faz a ligao entre o low level e o semantic level. Esse ltimo atribui signicado ao contedo da cena atravs de ontologias de domnio, especcas ao problema. A ligao realizada entre os nveis de descrio da imagem feita atravs de duas ontologias, apresentadas na seqncia. A ontologia de conceitos de imagem descreve os dados extrados pelos algoritmos de processamento. Ela descreve os dados numricos extrados das imagens atravs de conceitos como, tamanho (rea, comprimento, . . . ), formato (excentricidade, compacity), cor (cor mdia, vetores de coerncia de cor), entre outros. A descrio dos dados de processamento atravs dessa ontologia faz com que se reduza o degrau existente entre o nvel de informao da imagem e o nvel visual.

Figura 2.3: Ontologia de conceitos visuais referentes geometria. (Extrada de (MAILLOT; THONNAT; BOUCHER, 2004)) A ontologia que realiza a ligao entre os dados extrados diretamente das imagens e os dados semnticos, utilizada nessa abordagem, foi proposta por (MAILLOT; THONNAT; BOUCHER, 2004). Ela independente de domnio e estabelece o vocabulrio comumente utilizado por humanos na descrio visual de objetos e cenas. Seu objetivo descrever os conceitos vindos do nvel inferior atravs de conceitos visuais elevendo o nvel de abstrao. Os conceitos dessa ontologia esto divididos em trs pores. Conceitos espaciais que descrevem objetos atravs de conceitos como formato (arredondado, quadrado, retangular, . . . ), localizao, tamanho, entre outros, indicando caractersticas

12

de espacialidade dos objetos. Conceitos de cor, como brilho e saturao e conceitos de textura como granulao e orientao representam as outras duas pores na quais a ontologia est organizada. A gura 2.3, apresenta uma poro da ontologia referente conceitos geomtricos. A gura 2.4, extrada de (HUDELOT; MAILLOT; THONNAT, 2005), apresenta a localizao de cada ontologia nos nveis e a forma com que ambas realizam a interligao dos nveis de descrio do conhecimento visual. O exemplo apresentado descreve uma laranja contida na imagem.

Figura 2.4: Comunicao entre nveis de descrio das imagens. (Adaptada de (MAILLOT; THONNAT; BOUCHER, 2004))

2.3

Construtos Ontolgicos para Representao Simblica de Conhecimento Visual

A qualidade de uma rocha, como reservatrio de petrleo, afetada pelos processos diagenticos que modicam a porosidade e permeabilidade dos sedimentos. A anlise petrogrca permite a compreenso de aspectos importantes que inuenciam a qualidade de um reservatrio. Esses aspectos so observados em imagens capturadas de rochas extradas de reservatrios. A automatizao do processo de anlise desses aspectos motivada pela reduo da quantidade de tempo empregada nessa tarefa e pela formalizao de um mtodo subjetivo, ou seja, que envolve conhecimento visual e tcito. A abordagem apresentada por (SANTIN, 2008), aplicada no domnio descrito acima, divide o processo de interpretao de imagens em trs nveis independentes que podem ser utilizados de forma isolada. O nvel de processamento trata as imagens com granularidade de informao ao nvel de pixel. Nesse nvel, os elementos das imagens so extrados atravs de algoritmos de processamento que segmentam a imagem, ou atravs de segmentao manual. As informaes extradas nesse nvel so mapeadas para primitivas identicadas no nvel seguinte, descrito abaixo.

13

O nvel visual realiza a distino dos elementos que compem a imagem entre objetos principais, fundo da imagem e contornos. Nesse nvel, tambm representam-se os relacionamentos topolgicos entre os objetos. As primitivas de representao presentes nesse nvel associam os elementos extrados de imagens atravs da seleo feita pela ateno visual. No nvel semntico, atribui-se signicado aos objetos identicados no nvel visual, atravs da utilizao de uma ontologia de domnio da rea da Petrograa Sedimentar. O mapeamento entre os nveis garante a identidade dos objetos de cada um dos nveis, assim pode-se partir de um objeto do nvel semntico e encontrar seu correspondente no nvel de processamento de imagem. Esse mapeamento realizado atravs de tabelas que associam as primitivas de cada nvel. A gura 2.5 apresenta os nveis do modelo assim como o mapeamento entre as objetos.

Figura 2.5: Nveis do modelo de representao de conhecimento. (Extrada de (SANTIN, 2008))

2.4

Uma Ontologia de Formatos para a Classicao de Pssaros

Situado no domnio da ornitologia, (LIU et al., 2007) tem como objetivo de pesquisa a classicao de pssaros atravs de caractersticas visuais. A abordagem apresenta um framework constitudo por duas ontologias, uma de domnio e outra de contedo visual. A ontologia de domnio contm conhecimento obtido a partir de especialistas. Assim como outras ontologias de domnio, ela responsvel pelo conhecimento compartilhado e provm informaes semnticas utilizadas na classicao de pssaros. Essa ontologia

14

foi construda a partir de uma base de informaes presente no domnio. A ontologia de conhecimento visual organizada de acordo com caractersticas visuais como formato do corpo, bico e asas. Os conceitos visuais da ontologia foram obtidos atravs de generalizaes dos formatos originais dos pssaros. Assim, pssaros com o formato do corpo semelhante foram organizados atravs de especializaes de um formato compartilhado. A gura 2.6 apresenta a ontologia criada para representar o conhecimento visual aplicado na classicao de pssaros. Os formatos presentes direita da gura foram obtidos atravs do processamento e clusterizao de diferentes imagens, capturados atravs de fotograas dos animais. Com a clusterizao das imagens, foram obtidos formatos gerricos que representam diferentes espcies de pssaros.

Figura 2.6: Ontologia de formato de pssaros com elementos pictricos. (Extrada de (LIU et al., 2007)) Ambas ontologias apresentadas capturam diferentes aspectos do domnio. A ontologia de domnio captura o conhecimento dos especialistas da rea enquanto que a ontologia de formatos captura as caractersticas visuais dos animais. No entanto, ambas ontologias compartilham conceitos em comum. Os conceitos comuns entre ambas ontologias so mapeados entre si, relacionando assim o conhecimento de domnio ao conhecimento visual capturado.

15

COMPARAO ENTRE MODELOS

Este captulo apresenta uma anlise das caractersticas dos modelos descritos anteriormente, comparando-os por meio dessas.

3.1

Caractersticas

Ao analisar os modelos de representao de conhecimento visual descritos no captulo 2 observou-se um conjunto de caractersticas em comum, descritas na seqncia. Observou-se que os modelos apresentados so divididos em nveis de representao onde as informaes so agrupadas de acordo com o grau de abstrao. Os nveis possudos pelos modelos so geralmente, nvel da imagem (no presente em todos os modelos), onde as informaes das imagens so tratadas ao nvel de pixel e conceitos atmicos. Um nvel onde as imagens so descritas atravs de conceitos visuais e um nvel onde onde o contedo da imagem recebe signicado atravs da utilizao de ontologias de domnio. A comunicao estabelecida entre os nveis dos modelos feita de duas maneiras diferentes. Na maioria dos modelos ela realizada atravs da descrio de conceitos mais concretos por meio de conceitos mais abstratos, provenientes das ontologias, levando informaes do nvel da imagem ao nvel semntico. A outra forma de comunicao consiste no mapeamento direto entre conceitos com a utilizao de tabelas. Dentre os modelos analisados, apenas um apresenta elementos pictricos agregados ao seu contedo. Os outros modelos apresentam apenas contedo textual. Trs dos quatro modelos analisados foram construdos com aplicao direta sobre um domnio, tornando-os assim, modelos dependentes de domnio. O modelo construdo sem aplicao direta sobre um domnio possui construtos genricos, utilizados na descrio de elementos visuais e cenas de quaisquer domnios. Dos modelos analisados, dois deles apresentam processamento simblico de informaes, enquanto que outros dois, alm disso, apresentam processamento de imagens. Na seo a seguir, os modelos so comparados por meio dessas caractersticas.

3.2

Comparativo

A seguir, os modelos so comparados sobre a viso das caractersticas elencadas na seo anterior. Os modelos comparados (SILVA et al., 2004), (HUDELOT; MAILLOT; THONNAT, 2005), (SANTIN, 2008) e (LIU et al., 2007) sero referenciados, a partir deste momento, por Silva, Hudelot, Santin e Liu, respectivamente. Os modelos propostos por Silva e Liu apresentam apenas dois nveis mais abstratos de

16

representao, os nveis visual e semntico. As propostas de Hudelot e Santin, no entanto, apresentam modelos onde o contedo extrado das imagens representado ao longo de trs nveis, partindo do nvel da imagem at o nvel semntico. A abordagem apresentada por Santin realiza a comunicao entre os nveis de forma diferente do restante das abordagens. Nessa abordagem a comunicao realizada atravs de tabelas de mapeamento, que relacionam os conceitos existentes em cada um dos nveis. No restante das abordagens, a comunicao entre nveis feita por meio da correspondncia entre os conceitos das ontologias. Dentre os modelos analisados, apenas o modelo proposto por Liu apresenta contedo hbrido, ou seja, o contedo utilizado no modelo para descrever o conhecimento visual textual e pictrico. Entretanto, o contedo dos outros modelos representado apenas de forma textual. A dependncia de domnio est relacionada aplicao do modelo proposto. Apenas o modelo apresentado por Hudelot genrico e descreve conhecimento visual independentemente de domnio. Essa independncia proporcionada pela ontologia de conceitos visuais apresentada. Os modelos de Silva e Liu realizam o processamento simblico das informaes contidas em seus modelos, enquanto que os modelos propostos por Hudelot e Santin tambm apresentam processamento de imagens. A tabela 3.1 sintetiza o comparativo entre os modelos. Tabela 3.1: Comparativo entre modelos
Quantidade de nveis Nveis possudos Comunicao entre os nveis Contedo hbrido Dependncia de domnio Representao Processamento Silva 2 Visual e Semntico Ontologias No Sim Textual Simblico Hudelot 3 Imagem, Visual e Semntico Ontologias No No Textual Imagem + Simblico Santin 3 Imagem, Visual e Semntico Tabelas No Sim Textual Imagem + Simblico Liu 2 Visual e Semntico Ontologias Sim Sim Textual + Pictrico Simblico

17

CONCLUSO

Neste trabalho foram apresentados quatro modelos diferentes para a representao de conhecimento visual. Esses modelos foram comparados atravs de caractersticas em comum identicadas. A representao do conhecimento visual atravs de nveis divide o problema de extrao de contedo de imagens em problemas mais simples. Essa diviso faz com que o contedo da imagem seja descrito, ao longo dos nveis, por conceitos com maior nvel de abstrao e signicado. A independncia de domnio do modelo de representao de conhecimento visual proporciona maior exibilidade na aplicao do modelo e na descrio do contedo de imagens. No entanto, a dependncia de domnio proporciona maior preciso, em relao semntica da descrio realizada. A proposta de um modelo hbrido (textual e pictrico) de representao de conhecimento visual interessante e se destaca entre as outras abordagens em decorrncia da correspondncia entre o contedo da imagem que est sendo descrito e do elemento pictrico contido no modelo. Alm disso, os elementos pictricos conseguem representar o conhecimento tcito, de difcil formalizao, onde os modelos que possuem contedo puramente textual no conseguem representar por completo.

18

REFERNCIAS

ABEL, M. Estudo da Percia em Petrograa Sedimentar e sua Importncia para a Engenharia do Conhecimento. 2001. Tese (Doutorado em Cincia da Computao) Universidade Federal do Rio Grande do Sul. BRACHMAN, R. J.; LEVESQUE, H. J. Knowledge Representation and Reasoning. [S.l.]: Morgan Kaufmann, 2004. 381p. DALGISH, G. M. (Ed.). Random House Webster easy english dictionary. [S.l.]: Rans dom House, 2001. GONZALEZ, R. C.; WOODS, R. E. Digital image Processing. 3.ed. [S.l.]: Prentice Hall, 2007. 954p. GRUBER, T. R. A translation approach to portable ontology specications. Knowledge Acquisition, [S.l.], v.5, p.199220, 1993. HUDELOT, C.; MAILLOT, N.; THONNAT, M. Symbol Grounding for Semantic Image Interpretation: from image data to semantics. International Conference on Computer Vision Workshops, Los Alamitos, CA, USA, v.0, p.1875, 2005. LIU, Y.; ZHANG, J.; TJONDRONEGORO, D.; GEVE, S. A Shape Ontology Framework for Bird Classication. Digital Image Computing Techniques and Applications, 9th Biennial Conference of the Australian Pattern Recognition Society on, [S.l.], p.478 484, Dec. 2007. MAILLOT, N.; THONNAT, M.; BOUCHER, A. Towards ontology-based cognitive vision. Machine Vision and Applications, [S.l.], v.16, p.3340, 2004. SANTIN, C. E. Construtos ontolgicos para representao simblica de conhecimento visual. 2008. Dissertao (Mestrado em Cincia da Computao) Universidade Federal do Rio Grande do Sul. SILVA, L. A. L.; MASTELLA, L. S.; ABEL, M.; GALLANTE, R. M.; ROS, L. F. D. An Ontology-Based Approach for Visual Knowledge: image annotation and interpretation. In: WORKSHOP ON ONTOLOGIES AND THEIR APPLICATIONS, IN XVII BRAZILIAN SYMPOSIUM ON ARTIFICIAL INTELLIGENCE (SBIA), 2004, So Luis, Brazil. Anais. . . [S.l.: s.n.], 2004.