Você está na página 1de 12

(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao

17
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
INTRODUO
Se uma imagem vale por mil palavras, pode-se dizer que para
uma descrio total do que vemos em um comercial de televiso
de 30 segundos, precisaramos de cerca de 720 mil palavras. um
nmero expressivo, mas para um sistema eficiente de recuperao
de informao audiovisual no necessrio chegar a valor to
elevado de descritores. Neste artigo sero relatados alguns
avanos da pesquisa cujo objeto de estudo a correspondncia
entre elementos visuais e significados verbais, e que se desenvolve
integrando reas como a psicologia da cognio, a inteligncia
artificial, a produo audiovisual e a cincia da informao.
Desde as tbuas sumrias at a atualidade, muitos materiais
durveis serviram para preservar informaes mas, o que se pode
prever para o que hoje acondicionado em suportes eletrnicos,
e que j constitui em grande escala a nossa herana cultural e
intelectual para as futuras geraes? No caso do audiovisual,
as vantagens do registro eletromagntico esto condicionadas
enorme fragilidade dos meios, se comparados ao material
fotogrfico, pois a informao digital, dependente da alta
rotatividade da informtica, para permanecer exige cuidados
especiais, desde a sua criao at a sua conservao. Somente a
manuteno de uma poltica duradoura e de cooperao entre
os fabricantes de hardware e desenvolvedores de software, os
distribuidores e produtores de mdia, e com a participao de
bibliotecas, arquivos e museus poderemos esperar que nossas
mensagens sejam ainda acessadas no futuro.
A inveno do cinema e a rpida multiplicao dos meios
e processos, que geraram enorme quantidade de material
audiovisual, literalmente transformaram a face do mundo e
continuam modificando os padres da atividade humana. Em
alguns pases, tal acervo reconhecidamente um repositrio
valiosssimo de informaes, mas ainda assim na prtica um
tesouro oculto, pois as descries sobre os contedos poucas vezes
incluem algo mais que ttulos e curtas sinopses. No Brasil porm,
pouco mais do que 5 % de todo o material em pelcula produzido
at os anos 40 permanece atualmente preservado. A criao
de ferramentas que podem permitir a pesquisa por entidades
e conceitos registrados em filmes est sendo empreendida no
somente por filmotecas e museus, mas tambm de forma intensa
pelos produtores de mdia, que se preparam para oferecer contedo
audiovisual personalizado via internet e televiso digital.
Juliano Serra Barreto
Mestre em artes.
Professor da Universidade de Braslia (UnB).
E-mail: serra@unb.br
RESUMO
Exposio sobre processos e mtodos utilizados para a indexao e recuperao
textual da informao semntica em vdeo, tendo como base a identicao e
classicao do seu contedo visual e sonoro.
PALAVRAS-CHAVE
Sistemas de recuperao da informao visual. Indexao de vdeos. Recuperao
do contedo audiovisual.
Challenges and advancements in automatic retrieval of
audiovisual information
ABSTRACT
Presentation of methods and processes applied to classication and retrieval
of semantic information of video programs, through identication of sound and
visual content.
KEYWORDS
Content based image retrieval. Video indexing. Multimedia content retrieval.
Desafios e avanos na recuperao automtica da
informao audiovisual
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 17 09/09/2008 10:19:09
18
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Juliano Serra Barreto
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Na implementao de aplicaes que vo de bibliotecas digitais
a sistemas de segurana, sero necessrias novas ferramentas
que permitam o acesso facilitado ao contedo de audiovisuais.
A seguir apresentam-se as tendncias atuais e propostas de
soluo para a interpretao semntica automtica do que
genericamente denominado produto audiovisual, e que
abrange toda a produo de imagens em movimento feita
atravs de cmeras de diversos formatos, utilizadas em ritmo
crescente na sociedade contempornea.
INFORMAO AUDIOVISUAL
A humanidade vem produzindo cones h pelo menos
7.000 anos, porm com a revoluo digital estamos agora
experimentando uma relao muito ntima e quase absoluta
com a imagem, alcanando novo patamar que pode nos levar
inclusive a situaes extremas de vigilncia total, como a do Big
Brother imaginado por George Orwell no romance 1984.
A informao visual tem sido armazenada de forma analgica
e indexada manualmente, mas hoje muitos sistemas de base
de dados digitais so utilizados para armazenar imagens,
juntamente com seus metadados e taxonomias associados.
Sistemas hbridos, com indexao automtica e anlise de
contedo supervisionada devem ser desenvolvidos, pois
existem srias limitaes ao uso de indexadores manuais,
uma vez que requerem anotao individual, dificultando seu
uso em grandes arquivos, e que sofrem influncia tanto do
domnio de aplicao quanto do conhecimento da pessoa
que realiza a tarefa. O reconhecimento de imagens e sons
parte da rea de sistemas de recuperao da informao, em
que se colocam grandes desafios relativos ao armazenamento,
indexao, formulao de consultas e recuperao de contedo
semntico.
Ao se considerarem seqncias de imagens, o problema de
indexao torna-se mais difcil, pois envolve a identificao
e o entendimento de cenas longas e complexas para que seja
possvel obter uma recuperao precisa e eficiente. Atualmente
existem sistemas que permitem aos usurios especificar buscas
em repositrios de imagens por meio da seleo de elementos
visuais, como cor e textura, pelas comparaes de imagens-
exemplo e pelo reconhecimento de padres espaciais, ou
temporais no caso do vdeo.
Nas sees seguintes sero consideradas as consequncias
do aumento da produo audiovisual, assim como as formas
de registro e preservao de vdeo. Tambm sero revistos os
processos utilizados na anlise flmica e os padres propostos
para a indexao de materiais audiovisuais.
A acelerao da produo miditica
As estimativas produzidas por Kompatsiaris (2006) revelaram
alguns nmeros impressionantes para a produo audiovisual
nos anos vindouros. Em todo o mundo, 1-2 exabytes (bilhes
de gigabytes) de contedo eletrnico sero produzidos e 80
bilhes de imagens digitais sero feitas anualmente. Mais de
um bilho de imagens relacionadas a transaes comerciais
esto disponveis e devem aumentar dez vezes nos prximos
dois anos. A cada ano, 4 mil novos filmes sero produzidos,
alm dos 300 mil j disponveis em todo o globo. E sero
ultrapassadas as 100 bilhes de horas de material audiovisual
distribudas por 33 mil estao de televiso e 43 mil de rdio.
Como podemos lidar com tal quantidade de documentos e
metadados, que j assustadoramente denominado sobrecarga
informacional? Que ferramentas podem viabilizar a organizao
de tal produo? Nesse contexto, como encontrar a informao
necessria, no momento preciso?
A rpida transformao dos procedimentos e materiais de
reproduo audiovisual permite grande variedade de formatos
e suportes, mas alguns fundamentos bsicos ainda prevalecem.
A cmera obscura ainda o design bsico de qualquer aparelho
utilizado para registrar imagens da realidade visvel, embora o
processo eletrnico j no comporte o uso da prata nem as reaes
qumicas. Entretanto, a conservao de documentos baseados
em prata, como filmes e fotografias, embora seja delicada,
conhecida e eficiente, obtendo-se documentos que podem se
manter inalterados por at mais de um sculo. Tais produtos
presumidamente tero vida til mais longa do que os documentos
guardados, em meio magntico, e mesmo em dispositivos ticos,
sobretudo quando dependem de software e hardware especficos
para serem lidos. Com estas e outras preocupaes, j vm sendo
pesquisados parmetros mais permanentes para a preservao da
informao em formatos digitais, como possvel encontrar nas
definies propostas pela British Library em 1998, que tm sido
aprimoradas desde ento (BEAGRIE, 1998).
Os sistemas de redes distribudas esto tambm modificando
profundamente a estrutura e a linguagem da experincia
cinemtica. Novas possibilidades de interao entre autores e
pblicos permitem a criao de filmes adaptativos, multiplicando
os nveis de leitura e explorando eventos em tempo real. Para
Paul Virilio, estamos mesmo inaugurando um novo estatuto para
a imagem, uma era da lgica paradoxal, em que a imagem se
impe coisa representada, e que desestabiliza as representaes
pblicas tradicionais, em benefcio de uma apresentao, de
uma presena paradoxal que supre a prpria existncia. Em
suas palavras: Esta virtualidade que domina a atualidade,
subvertendo a prpria noo de realidade (VIRILIO, 1994).
O custo da produo audiovisual, no que concerne gerao e
gravao de imagem e som, tem cado progressivamente, medida
que componentes eletrnicos so fabricados em maior quantidade
e com maior capacidade, e consumidos em larga escala. Assim
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 18 09/09/2008 10:19:10
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
19
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Desafios e avanos na recuperao automtica da informao audiovisual
vemos uma nova e vigorosa popularizao do audiovisual no
mundo industrializado, que invade todos os pontos da Terra e
todos os recantos em que se encontra a presena humana. Desde
o ponto de vista das cmeras de vigilncia, nas ruas e nas escolas,
at o do interior das residncias, em webcams e nos celulares,
multiplica-se em proporo geomtrica a produo de imagens em
movimento. A consolidao de sistemas que permitem eficiente
catalogao e busca em acervos multimdia permitir uma relao
mais interativa e funcional com o audiovisual, mais personalizada
e ao mesmo tempo, mais difusa.
O vdeo digital
O vdeo uma tecnologia de processamento de sinais
eletrnicos, que podem ser analgicos ou digitais, desenvolvida
para apresentar imagens em movimento, aproveitando-se do
efeito fisiolgico da persistncia retiniana, assim como feito
no processo cinematogrfico. Um filme uma seqncia de
imagens fixas que, exibidas a taxas em torno de 20 quadros
por segundo, apresentam uma iluso visual de movimento no
plano bidimensional da tela de projeo. O agrupamento dessas
imagens formando um filme ou programa reflete uma organizao
definida na fase de edio e em geral prevista por um roteiro. A
edio um processo de colagem linear de trechos de imagens e
sons sincronizados que formam conjuntos denominados planos
(ou tomadas), cenas e seqncias. As seqncias formam os
grandes blocos narrativos, sendo anlogas a captulos de livros,
na composio do filme. As seqncias contm cenas, que so
como pargrafos, trechos da narrativa com unidade lgica e
visual. Por sua vez, uma cenas um agrupamento de planos,
sendo cada plano um subconjunto dos fotogramas, ou quadros
obtidos em operao nica da cmera.
Na identificao de contedos importante a discriminao
destes nveis hierrquicos, o que feito com o reconhecimento
de padres nas imagens isoladas e tambm no fluxo de
imagens. No entanto, o vdeo digital apresentado usualmente
de forma comprimida, dificultando este tipo de anlise em
alguns formatos de arquivo multimdia. A baixa qualidade
de exibio afeta negativamente os algoritmos de extrao
de caractersticas visuais e a localizao de eventos dinmicos
como transies entre cenas.
No vdeo digital eliminam-se redundncias entre dois quadros
subseqentes utilizando-se padres de compresso de imagens,
para se obter um arquivo mais leve e fcil de ser manipulado.
O algoritmo utilizado para essa compresso chamado codec,
e o arquivo que contm o programa codificado chamado
container. A indstria tem apresentado muitas solues de
formatos que agem como containers, e estes podem incorporar
diversos codecs. Os formatos e codecs de arquivos de vdeo
mais conhecidos so os seguintes:
o DivX um codec com elevada taxa de compresso, que
pode reduzir o tamanho de um filme em DVD de 6 GB
para 700MB sem perder muita qualidade;
o MJPEG um codec que guarda cada frame como
uma imagem JPEG separada. A qualidade tima e
independente do movimento na seqncia de vdeo.
Nos vdeos em MPEG, a qualidade decresce quando a
seqncia tem muito movimento;
o MPEG uma famlia de formatos de compresso
padronizados pelo Moving Picture Experts Group
1
, o qual
formado por cerca de 350 organizaes. O MPEG-1 o
padro bsico de compresso de udio e vdeo. O MPEG-2
um conjunto de padres voltados para a difuso televisiva
de qualidade. O MPEG-4 usa um algoritmo H.264 para
altas taxas de compresso. Suporta o Digital Rights
Management (DRM), para controle de direitos autorais
e hoje o codec mais usado para streaming multimdia na
Internet e na difuso televisiva, com o container MP4.
De especial interesse para a recuperao da informao
audiovisual o formato MPEG- 7, uma proposta de
padronizao da descrio de contedos multimdia, e
que j est sendo usado em repositrios multimdia. um
esquema de metadados que permite descrio espacial
e temporal em diferentes nveis de detalhe (Doller,
2007). Existem vrios programas para a anotao e
recuperao em MPEG-7, como o Caliph & Emir
2
e o
VideoAnnex
3
;
o AVI (Audio Video Interleaved) armazena a informao
de udio e vdeo em estruturas intercaladas, geralmente
utilizados os codecs MPEG, o Divx e o WMV. O WMV
(Windows Media Video) atualmente a verso registrada da
Microsoft do MPEG-4, e permite agregar o sistema DRM aos
arquivos, ativando assim uma proteo contra cpias. Outros
formatos populares so o Quicktime e o RealVideo.
Os suportes fsicos para arquivos digitais podem ser magnticos
(HD,disquetes, etc), ticos (CD, DVD etc.) ou chips, circuitos
integrados de memria (RAM, pendrive, carto). Pesquisas
recentes por dispositivos de armazenagem prometem mdias mais
durveis, como um sistema hologrfico de registro em cristais
fotorrefrativos
4
. Atualmente o arquivo digital exige a presena
de um contexto tecnolgico para ser acessado e essa dependncia
tecnolgica pode leva-lo rpida obsolescncia. Como forma de
evitar a degenerao da informao em meio eletrnico, faz-se
necessria a criao de polticas institucionais de longo prazo.
A preservao digital o conjunto de atividades ou
processos responsveis por garantir o acesso continuado a
longo prazo informao e ao restante patrimnio cultural
existente em formatos digitais. As diferentes metodologias
que foram propostas se opem entre as que valorizam
estratgias centradas na preservao do objeto fsico, e as
que preconizam a preservao do objeto conceitual, por
meio de converses e encapsulamento. Para Ferreira (2006),
1 http://www.mpeg.org/
2 http://www.semanticmetadata.net/
3 http://www.research.ibm.com/VideoAnnEx/
4 http://www.inphase-tech.com
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 19 09/09/2008 10:19:10
20
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Juliano Serra Barreto
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
a preocupao obstinada pela manuteno do arquivo original
vem diminuindo medida que aumenta a compreenso acerca
dos processos informticos, e difunde-se a idia de que o foco
da preservao no precisa estar na reteno do objeto fsico,
mas na conservao da experincia sensorial produzida por
esse objeto, que abrange um escopo maior do que o prprio
documento audiovisual. Assim, uma poltica de preservao
dever descrever claramente as estratgias adotadas para
assegurar a preservao dos materiais em cada um dos nveis
de abstrao do vdeo, quais sejam, o fsico, o lgico e o
conceitual, e ao mesmo tempo no pode negligenciar os nveis
superiores, como o social, o econmico e o organizacional.
Anlise do contedo flmico
No Dicionrio Terico e Crtico do Cinema, Jaques Aumont diz que
as teorias de anlise flmica produzidas at os anos 70 carregavam
principalmente um ideal estruturalista, e pesquisadores da
Imagem como Raymond Bellour, Roland Barthes e Jaques
Monod: ...procuravam no prprio texto, em sua estruturao
e em sua ligao com as condies de sua gnese a explicao
de sua forma e de sua relao com o espectador. (AUMONT,
2003). E continua explicando que somente aps Cristian Metz e
sua sintagmtica, da lingustica gerativa de Colin e Carrol, e da
psicologia da montagem de Jean Mitry, que Jean Louis Schefer
recuperou uma dimenso figurativa na interpretao do filme,
em oposio s tentativas de codificao vistas anteriormente,
abrindo espao para conceitos e processos originrios da psicologia
cognitiva, que so hoje extensamente aplicados na recuperao
textual de contedos visuais. De fato, a partir da, e apoiando-se
na gestalt e no entendimento de aspectos lingusticos no cinema
e na fotografia, chega-se mesmo a construir uma sintaxe da
linguagem visual, como na proposio de Dondis (1997) e na
gramtica flmica de Arijon (1991).
Em extenso trabalho sobre a anlise de filmes, Trin (2006)
considera que a elaborao de uma descrio e de uma
interpretao do filme so as etapas bsicas, mas que devem
ser acompanhadas por outras avaliaes externas ao objeto
estudado. Assim, inicialmente necessrio:
1) decompor o filme em seus elementos constituintes
(desconstruir= descrever);
2) estabelecer relaes entre tais elementos para
compreender e explicar a constituio de um todo
significante (reconstruir= interpretar).
Mas este processo se estende na incluso de parmetros
contextuais que revelam uma situao e uma histria para o
produto audiovisual:
o estudo sobre as condies tcnicas de produo do filme;
a reflexo sobre a situao econmico-poltico-social no
momento de sua produo;
a incorporao de princpios ordenadores, tais como
gnero; estilos autorais, star-system, movimentos
cinematogrficos, etc;
o estudo sobre a recepo do filme, tanto em seu
surgimento quanto no correr dos anos;
a utilizao ou no em algum modelo de representao
determinado.
Estes pontos so extremamente relevantes, pois a recuperao
eficaz do contedo visual e sonoro s possvel com uma
indexao significativa e discriminante, e que deve estar
relacionada com intenes e procedimentos do usurio quando
faz a consulta no ambiente real.
O contedo visual de imagens pode ser classificado em dois
tipos principais:
contedo primitivo de imagens refere-se aos elementos
bsicos que compem a imagem; so caractersticas
visuais que podem ser reconhecidas e extradas
automaticamente pelo computador com reconhecimento
de padres e viso computacional. Contedos primitivos
so em geral de natureza quantitativa;
contedo complexo de imagens refere- se aos padres
de uma imagem que so percebidos por seres humanos
como fontes de significados. Dificilmente podem ser
identificados por mquinas e so principalmente de
natureza qualitativa.
Os ndices ou metadados, sejam extrados automaticamente ou
anotados manualmente, podem ser classificados de acordo com a
relao que eles tm com a imagem ou vdeo nos seguintes tipos:
metadados independentes do contedo dados que
no concernem diretamente ao contedo da imagem
ou vdeo, mas esto relacionados com este, como o
formato da imagem, autoria, data, local, condies de
iluminao, etc.;
metadados dependentes do contedo dados que se
referem a caractersticas consideradas de nvel baixo
e mdio, como cor, textura, forma, relaes espaciais,
movimento e combinaes destes. Para alguns tipos
de imagens, como as provenientes de satlites, da
biomedicina, como tomografias, etc., possvel descrever
o contedo destas em termos da geometria intrnseca e
de configuraes topolgicas;
metadados descritivos do contedo dados que se
referem ao contedo semntico e que concernem s
relaes das entidades da imagem com entidades do
mundo real ou eventos temporais, emoes e significados
associados a sinais visuais e cenas.
A maior vantagem associada com a indexao de contedo
primitivo que sua extrao pode ser automatizada. Entretanto,
este contedo pode no ser suficientemente rico para grande
variedade de aplicaes, uma vez que tipos de objetos e
caractersticas significativas que podem ser reconhecidos pela
mquina so ainda limitados. Em contrapartida, o contedo
complexo da imagem semanticamente rico, mas sua extrao
e indexao so custosos, uma vez que um envolvimento
manual considervel geralmente necessrio.
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 20 09/09/2008 10:19:10
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
21
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Desafios e avanos na recuperao automtica da informao audiovisual
Padres de Indexao
A informao visual tem sido tradicionalmente produzida e
conservada em suporte analgico e indexada manualmente,
mas com a digitalizao dos processos de captura, registro e
manipulao da imagem fotogrfica, hoje as bases de dados em
memrias magnticas e ticas so utilizadas para armazenar
imagens e sons, juntamente com os metadados, taxonomias
e tesauros associados.
As diferentes iniciativas para indexao de audiovisuais, quando
definem taxonomias especficas, podem valorizar diferentes
vises do problema: por um prisma implementacional, mais
voltado para aspectos tcnicos; ou uma aproximao conceitual,
preocupada com a semntica; ou ainda uma viso contextual, que
leva em conta a utilizao do material. As etapas que geralmente
estruturam a indexao de vdeos so as seguintes:
segmentao do programa em cenas e planos;
descrio de planos identificao de elementos de
contedo;
descrio de cenas localizao temporal e sumrio
textual;
transcrio de voz e classificao de udio;
descrio de metadados independentes de contedo.
Das inmeras aplicaes desse processo, destacamos a possibilidade
da oferta de vdeo sob demanda, de forma que apenas determinado
segmento do programa pode ser apresentado como resposta
a uma busca, ou oferecido em um cardpio personalizado de
preferncias em um sistema de televiso interativa e a utilizao
do conceito de hipervdeo, ou seja, a navegao por meio de
segmentos hiperlinkados. Modificaes profundas na nossa relao
com o audiovisual sero provocadas pelo desenvolvimento
de sistemas eficientes de indexao, e afetaro boa parte das
atividades humana, da cultural produo industrial, da educao
segurana, da medicina astronomia.
O que acontecer mais rapidamente se houver consenso na
definio de um arcabouo comum de metodologias para
recuperao semntica de imagem e som, o que no entanto ainda
no aconteceu. Alguns dos padres recentemente propostos e
aplicados para indexao de audiovisuais so os seguintes:
Dublin Core linguagem para descrio de metadados que
utiliza duas classes de termos: elementos - organizados
em trs categorias, contedo, propriedade intelectual e
instanciao; e qualificadores - divididos em duas classes,
elementos de refinamento e esquemas de codificao.
Inicialmente criado para descrio de objetos textuais,
por meio de diversas extenses e acrscimos tem sido
aplicado tambm em contedos audiovisuais.
RDF Resource Description Framework tem por
objetivo a definio de recursos que podem ser operados
independentemente do domnio especfico da aplicao,
facilitando e automatizando a troca de informaes entre
mquinas e entre plataformas distintas. O modelo bsico
compe-se de recursos, propriedades e declaraes, em um
sistema de classes extensvel, que utiliza a sintaxe XML.
MPEG-7 Multimidia Content Description Interface
um padro para descrio de objetos multimdia e
prev o suporte a certo grau de interpretao semntica.
Busca a interoperabilidade em recuperao, indexao,
filtragem e acesso a contedos audiovisuais entre
recursos e aplicaes que manipulam esses contedos.
Para isso utiliza descritores, esquemas de descrio e uma
linguagem de definies de descritores, criados com a
sintaxe XML, fornece ferramentas que permitem a gesto
do contedo e sua descrio estrutural e conceitual, alm
de navegao e acesso randmico e interao com o
usurio, inclusive com um histrico da utilizao do
sistema.
LOM Learnig Objects Metadata estrutura metadados
para objetos de aprendizagem, que so definidos como uma
entidade que pode ser usada para aprendizagem e educao.
Objetiva o compartilhamento e a troca desses objetos em
diferentes ambientes e contextos, por meio de classificao
hierrquica em categorias gerais e especficas.
RECUPERAO AUTOMTICA DE
CONTEDO
Os sistemas de recuperao de imagens por contedo so
denominados CBIR (Content Based Image Retrieval) ou CBVIR
quando incluem o vdeo, e podem ser construdos para encontrar
imagens de duas formas: a busca por exemplo, em que se utilizam
como chave de busca as caractersticas visuais de uma imagem
ou esboo de referncia; e a busca textual, realizada a partir da
transcrio de significados ou conceitos contidos na imagem
que foram previamente relacionados a caractersticas visuais
especficas. Na pesquisa em texto, as palavras sero procuradas
na base criada a partir da anlise de significados implcitos no
contedo visual, processo denominado recuperao semntica,
pois fundamentalmente diz respeito relao entre um signo e
aquilo a que ele se refere.
A pesquisa em CBIR muito abrangente e envolve diversas
reas das cincias sociais e outras mais tecnolgicas que
contribuem com as ferramentas computacionais necessrias
para determinar a informao sinttica presente em
imagens, especialmente as que estudam a viso artificial e
o reconhecimento de padres. Por exemplo, na Columbia
University uma pesquisa multidisciplinar desenvolveu o
Persival (Personalized Retrieval and Summarization of Image, Video
And Language resources), sistema automtico de identificao
de metadados dependentes de contedo, especializado em
imagens e grficos teis na medicina. Na Universidade de
Winsconsin, alm de ferramentas de anlise, pesquisa-se um
sistema videogrfico autnomo, capaz de produzir vdeos
informativos de qualidade simulando os mtodos de operao
de cmera usados por profissionais(GLEICH, 2002).
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 21 09/09/2008 10:19:11
22
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Juliano Serra Barreto
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
No campo da cincia da informao, a Tufts University de
Boston, nos Estados Unidos, props a iniciativa Digital
Library for the Humanities
5
, suportada tambm por outras
universidades americanas, que pretende definir novos
padres para a produo de audiovisuais. Este novo formato
de mdia permitiria, aos documentos assim formatados, uma
auto-atualizao, fruto da interao com outros documentos
eletrnicos, e tambm com seus usurios.
A indexao do produto audiovisual e a extrao de dados
relevantes apresenta desafios tericos enfrentados por muitos
autores, e uma discusso extremamente atual diante das
transformaes miditicas anteriormente apontadas. A
recuperao de informaes semnticas contidas em fotografias
ainda uma meta a ser alcanada, mas ao consideramos seqncias
de imagens, o problema de indexao torna-se muito mais
desafiador, pois envolve a identificao e o entendimento de
cenas longas e complexas, compostas por centenas de imagens.
O primeiro passo o desenvolvimento de sistemas de
reconhecimento de padres capazes de dividir as seqncias
de imagens em unidades menores, porm significativas, no
processo denominado segmentao de vdeo. importante
considerar a deteco de determinados eventos marcantes,
como o instante em que o predador ataca uma presa, a ao
eletroqumica em reas do crebro, a coliso de veculos e
outros registros de curtssima durao. E finalmente aplicar
tcnicas de reconhecimento visual, j utilizadas extensivamente
em imagens tcnicas no-fotogrficas, como tomografias
e ecografias, como no exemplo mostrado na figura 1, que
apresenta imagens radiogrficas da coluna vertebral.
Tela 1
5 http://www.perseus.tufts.edu/
Tela 2
Tela 3
Tela 4
Figura 1 - Reconhecimento em imagens mdicas.
Tela 1: Segmentao da imagem; Tela 2: Faz a busca por exemplo;
Telas 3 e 4 permitem a busca por esboo.
Grande nmero de centros de pesquisa e de empresas esto
envolvidos com esta questo, percebida como urgente pelos
grandes distribuidores mundiais de audiovisual. Em pesquisa
que envolve a Sharp, a Phillips, a Microsoft e a AT&T,
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 22 09/09/2008 10:19:11
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
23
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Desafios e avanos na recuperao automtica da informao audiovisual
desenvolvida nas universidades de Berkley e de Illinois,
so explorados quatro processos coordenados: extrao de
elementos, anlise de estruturas, abstrao e indexao,
para a obteno de um sistema automtico de segmentao
e identificao de contedos em qualquer tipo de vdeo
(DIMITROVA, 2002).
Na Holanda, o projeto DMW
6
(Digital Media Warehouses)
trouxe muitos avanos na modelagem multimodal e inteligente
para o reconhecimento de padres em vdeos e a identificao
de conceitos sobre eventos e objetos. Os pesquisadores do
DMW definiram solues lgicas e fsicas, alm de padres para
aquisio e indexao do produto multimiditico, que formam
uma arquitetura integrada para armazenagem de metadados
acoplada a uma linguagem de consulta de alto nvel.
No Brasil, a Universidade Federal de So Carlos desenvolve
o sistema SisRMi-CN (Serrano, 2003), um ambiente para
a criao e gesto de aplicaes multimdia, oferecendo
diferentes formas de recuperao de informaes, usando
lgica nebulosa. E na UFMG, o Ncleo de Processamento
Digital da Imagem vem apresentando pesquisas consistentes
na rea, oferecendo workshops e implementando programas
de preservao junto ao Patrimnio Histrico do Estado de
Minas Gerais (ARAJO, 2003).
Antologias, catlogos, resenhas e inmeras outras fontes
de informao sobre filmes, vdeos e programas televisivos
so publicados regularmente para suprir as necessidades
estratgicas de uma indstria cultural cada vez mais profcua.
medida que redes de televiso vo ocupando os canais na
Internet e integrando-os em um sistema mundial multimdia,
os mecanismos de classificao, busca e indexao de
programas e eventos tornam-se servios essenciais. Algumas
das grandes difusoras mundiais de TV e rdio j permitem o
acesso livre parte de seus arquivos de programas. No Brasil,
os distribuidores de mdia principais so a All TV, a RedeTV,
a TV Vrgula, o Globo Media Center, o canal do portal
Terra, a TV Cultura, e tambm a InterneTV. E semelhana
do YouTube, filmes curtos podem ser vistos no PortaCurtas
e no CurtaoCurta. No entanto, as descries de contedo
so obtidas em bancos de dados manualmente indexados
e resumem-se a curta sinopse e comentrios ou crticas de
usurios. O Internet Movie Database
7
provavelmente o mais
completo registro da produo cinematogrfica disponvel
atualmente na rede.
Identificao de elementos visuais
Muitos sistemas de CBIR utilizam a similaridade de
caractersticas como formas, bordas, cores ou textura para
criar ndices, o que tem produzido bons resultados, quando
6 http://monetdb.cwi.nl/acoi/DMW/index.html
7 http://imdb.org
utilizado para imagens em movimento. O projeto Informedia
8
,
da Universidade Carnagie Mellon, foi pioneiro na rea ao
utilizar estas tcnicas e a segmentao do vdeo para indexar
programas de notcias em tempo real. A figura 2 mostra uma
tela da interface de busca textual em noticirios, e a figura 3
apresenta as etapas de processamento do sistema Informedia,
evidenciando os diferentes domnios em que so extrados os
metadados.
Figura 2
Projeto Informedia Tela do aplicativo de busca e anotao
supervisionada
Figura 3
Projeto Informedia Esquema conceitual do sistema
Outras linhas de pesquisa experimentam o levantamento de
grficos estatsticos de caractersticas dinmicas no vdeo. No
trabalho de Guimares (2003), o fluxo de vdeo transformado
em fatias espao-temporais por amostragem dos pixels que
formam as imagens. Cada quadro 2-D transformado em uma
linha vertical. O grfico resultante representa o ritmo visual de
um vdeo, e estas fatias podem indicar os pontos de transio,
onde h grandes mudanas no contedo da imagem.
Os sistemas mais reportados para extrao de metadados
dependentes de contedo so os que reconhecem semelhanas
entre caractersticas visuais, onde usualmente temos como
8 http://www.informedia.cs.cmu.edu/
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 23 09/09/2008 10:19:13
24
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Juliano Serra Barreto
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
base de pesquisa a similaridade de cores, de formas ou de
texturas, ou uma combinao destes parmetros:
A cor uma das caractersticas mais utilizadas pelos seres
humanos para reconhecimento e discriminao visual. A
aparncia de uma cor em objetos do mundo real geralmente
alterada pela textura da superfcie, pela iluminao e
sombra de outros objetos, e pelas condies de observao
e captura. As operaes de reconhecimento de similaridades
permitem encontrar as seguintes imagens: que contm uma
cor especificada por meio de propores aditivas; cujas cores
so prximas daquelas de uma imagem exemplo; que contm
regies coloridas como especificado em esboo; que contm um
objeto conhecido com base nas propriedades de composio
espectral. A extrao de cores automatizada ainda no capaz
de fazer referncias ao contexto, o que dificulta a distino
entre uma informao de cor do objeto e de uma alterao
cromtica introduzida pelo ambiente.
A percepo da textura um fator importante da viso
humana, pois ajuda a identificar em uma cena a profundidade e
orientao das superfcies, alm de revelar suas caractersticas
tcteis. A textura refere-se a um padro visual que tem
algumas propriedades de homogeneidade que no resultam
simplesmente da cor ou da incidncia da luz, como a repetio
de linhas e as caractersticas fsicas superficiais dos objetos. Pela
extrao de caractersticas de textura obtm-se um descritor
importante para indexar imagens da natureza, e muito til nas
pesquisas em grandes repositrios de imagens .
Forma um critrio que permite identificar na projeo
bidimensional parte da estrutura fsica dos objetos. Para
aplicaes de recuperao, as caractersticas da forma podem
ser consideradas como sendo globais ou locais. Caractersticas
globais so propriedades derivadas da forma inteira, como
simetria, circularidade, localizao de eixos, etc. Caractersticas
locais so aquelas derivadas do processamento parcial da forma,
incluindo tamanho e orientao de segmentos consecutivos
de bordas, pontos de curvaturas e ngulos de curvas. As
caractersticas de forma podem tambm ser classificadas em
parmetros internos, que descrevem a regio envolvida pelo
contorno do objeto, e parmetros externos, que descrevem
as bordas do objeto. Na figura 4 pode-se ver a filtragem de
bordas nas imagens de uma aplicao CBIR que usa a forma
para a identificao de veculos em trnsito.
Para indexar imagens fixas extraindo-se os metadados
dependentes do contedo (cor, textura, forma), pode ser
necessrio pr-calcular para cada imagem um conjunto
de caractersticas distintivas, e ento as consultas so
expressas como comparaes com exemplos visuais. Para
comear a consulta, o usurio seleciona as caractersticas
que so relevantes e define uma medida de similaridade.
Os exemplos tanto podem ser esboos preparados pelo
usurio (com ajuda de um programa de desenho) quanto
imagens selecionadas em um banco de dados, dentre
amostras preparadas. O sistema verifica a similaridade entre
o contedo da imagem usada na consulta e das imagens
da base de dados. Como nem sempre os resultados obtidos
em resposta a uma consulta so plenamente satisfatrios,
em geral procura-se melhorar este resultado com uma
metodologia em que se mantm o nmero de objetos no
encontrados o mais baixo possvel, s custas de um nmero
mais alto de falsas respostas.
Figura 4
Filtragem de imagens para o reconhecimento de formas no
programa ImprovQT
As tcnicas de reconhecimento aplicadas em imagens fixas
so empregadas nos quadros obtidos na fase de segmentao
do vdeo, apresentada a seguir.
Segmentao do vdeo
Mtodos estruturados de representao compacta do contedo
dos produtos audiovisuais tm sido desenvolvidos com objetivo
de facilitar o acesso ao vdeo no s para navegao por imagens
relevantes, ou quadros-chave, como para a recuperao e
pesquisa via texto. Tais mtodos buscam modelar os dados de
forma que todas as informaes estejam disponveis de maneira
clara e rpida para os usurios que a esto requisitando, alm
de tornar transparentes as informaes pertinentes sobre os
dados (metadados).
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 24 09/09/2008 10:19:14
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
25
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Desafios e avanos na recuperao automtica da informao audiovisual
O desafio para a indexao e recuperao de imagens orientadas
pelo contedo est no desenvolvimento de mecanismos
automticos e precisos, porm genricos e abrangentes. Uma
possibilidade comear com a extrao de contedo primitivo
e subseqentemente fazer uso de regras de conhecimento
e aprendizado sobre a informao contextual relevante,
permitindo uma identificao, ou inferncia automtica, do
contedo significativo que uma pessoa observaria em uma
fotografia ou vdeo. Essa soluo adequada em algumas
situaes especficas.
No noticirio televisivo tpico, por exemplo, podem-se
considerar algumas caractersticas particulares importantes
que facilitam o trabalho de indexao automtica: a trilha
sonora composta na maior parte por falas de entrevistados ou
narradores; usam-se extensivamente as legendas e letreiros; e a
imagem freqentemente uma ilustrao do tema tratado.
O vdeo digital uma apresentao de eventos dinmicos
que possuem imagens, sons, textos e grficos, uma estrutura
complexa que pode ser dividida em partes mais simples. O
problema da segmentaro em vdeo comea na identificao
dos momentos de mudana radical do contedo visual, nos
cortes de montagem e na seqncia de quadros estticos
do filme. A abordagem clssica para resolver este problema
baseada no clculo de medidas de dissimilaridade ou
diferenas entre os quadros. Em novas abordagens, a
segmentao em vdeo transformada em um problema
de deteco de padres, no qual cada evento de vdeo
visto como padres em um imagem espao-temporal 2D,
que constituem um ritmo visual. Nesse caso, so utilizadas
basicamente ferramentas morfolgicas e topolgicas com
o objetivo de identificar os padres especficos que so
relacionados a eventos do vdeo, como cortes, fades, dissolves,
flashings e outros.
Figura 5
Identicao de planos
Na segmentao do vdeo, a unidade fundamental o
PLANO, que capturado a partir de uma operao contnua
da cmera. O plano constitudo por uma seqncia
ininterrupta de QUADROS ou fotogramas gerados pela
cmera, e pode ser uma imagem esttica no tempo ou mostrar
tanto o movimento produzido pela prpria cmera, como
por exemplo, zoom ou panormica, quanto o realizado por
objetos da cena.
Uma CENA usualmente composta de nmero pequeno
de planos seqenciais unificados pela posio temporal ou
caractersticas similares. Enquanto o plano uma unidade
fsica do vdeo, a cena representa uma unidade semntica do
mesmo, possuindo algum significado intrnseco. O processo
de identificao destas unidades, a segmentao do vdeo,
comea por determinar os limites (incio e fim) dos planos e
cenas. (figura 5).
Figura 6
Um navegador visual de vdeos, exibindo os quadros-chave, e a
durao das cenas identicadas.
Uma cena um agrupamento de planos, que por sua vez
so constitudos por seqncias de quadros. Por ser grande a
quantidade de cenas contidas em um filme, e para facilitar a
representao, os planos podem ser sintetizados e apresentados
de forma resumida, por meio de quadros selecionados
que representam o contedo da cena, e so chamados de
QUADROS-CHAVE.
Quadros-chave so um ou mais quadros que representam todo
o contedo visual de um plano da maneira mais aproximada
possvel. Tcnicas para a extrao de quadros-chave lidam
com os limites do plano (isolamento dos quadros inicial e
final), e com padres de contedo visual (a ocorrncia de
determinado elemento, ou em agrupamentos de elementos
distintos). A taxa de amostragem pode variar em funo do
grau de preciso desejado.
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 25 09/09/2008 10:19:15
26
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Juliano Serra Barreto
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Para a identificao das cenas pode-se recorrer similaridade
visual e a medidas de proximidade temporal. A similaridade
visual pode ser medida com a anlise de histogramas (grfico
da distribuio de pixels), de estatsticas de fluxo tico, e
da localizao de elementos visuais recorrentes. A figura 6
apresenta uma tela de aplicativo para seleo de quadros-
chave e identificao de cenas, desenvolvido na Universidade
Chinesa de Hong-Kong.
A IBM, em sua unidade de Watson, Califrnia, tem se dedicado
especialmente pesquisa em recuperao de informao
audiovisual e desenvolvido inmeros projetos relacionados,
a comear por um ambiente de programao sofisticado para
pesquisa semntica, o UIMA (Unstructured Information
Management Architecture), que permite a integrao com
programas em JAVA de ferramentas de anlise capazes de
descobrir significados, relaes e fatos mediante anlise de
documentos de texto, imagens, e-mail, udio e vdeo. A indexao
de imagens e vdeo feita com o sistema denominado MARS
9

(Multimedia Analysis and Retrieval System), que usa tcnicas
de inteligncia artificial para inferir conceitos semnticos a partir
de uma biblioteca de modelos. Assim possvel a busca com
base no contedo primrio, a partir de similaridade em cores,
texturas e formas, por conceitos semnticos que descrevem
cenas, objetos e eventos. O sistema tambm faz a pesquisa por
metadados e textos contidos na imagem, alm da transcrio
de dilogos e identificao de gnero musical. Ainda limitado
em sua biblioteca de conceitos, com o MARS possvel extrair
elementos como prdios ou o tipo de cenrio (p. ex. praia, neve,
mar, cu), e transcrever locues treinadas.
Recuperao da informao em udio
Para o reconhecimento e representao do contedo
sonoro deve-se inicialmente discriminar os trs nveis que
costumam compor a trilha sonora de filmes; o nvel da fala,
sejam dilogos ou narraes; o de rudos; e a trilha musical,
quando houver. O segundo e terceiro nveis tambm contm
informaes semnticas, porm as pesquisas se concentram
na identificao de palavras faladas, portanto na extrao
imediata de significantes lingsticos. O reconhecimento
da fala ou ASR (Automatic Speech Recognition) consiste em
discriminar fonemas, slabas e palavras para recuperar uma
mensagem de voz, e geralmente acontece em trs etapas:
1) aquisio do sinal de voz a simples transformao do
sinal mecnico em sinal eltrico, feita normalmente
por microfones, conectados a uma placa de captura de
som, e acionada por um software de gravao;
2) extrao paramtrica filtragem, quantizao e
preparao do sinal digital, atravs de software de
edio e tratamento de sons;
9 http://www.alphaworks.ibm.com/tech/imars
3) reconhecimento de padres a identificao de
palavras e frases na representao matemtica
discreta de sinais contnuos. Algumas das tcnicas de
processamento digital de sinais usadas so Codificao
Preditiva Linear, baseada na diferena entre os tipos
de sons; Modelo de Mistura Gaussiano, baseada em
classes vocais individualizadas; Transformada Rpida
de Fourier (FFT), modelagem do sinal de palavras
isoladas.
O reconhecimento de voz feito por um algoritmo capaz
de segmentar o udio em pequenos trechos que isolam os
fonemas. A transcrio especfica para cada lngua e cada
som individual pode ser identificado e comparado a uma
lista previamente construda de palavras ou frases. Existem
basicamente dois tipos de transcrio da voz humana:
o primeiro permite ativar comandos predefinidos, como
Negrito ou Abrir programa, com a fala de um usurio
especfico. Os do segundo tipo so os chamados programas
de ditado, que permitem transcrever textos. Estes podem ser
dependentes de locutor, do qual se exige treino prvio e que
so comuns hoje em dia, ou independentes de locutor, sistemas
ainda em desenvolvimento e que apresentam grandes desafios
na sua implementao (NETO, 2006).
Para a classificao da informao musical foram reportados
resultados consistentes na busca, por exemplo, ou QBE (Query
by Example), mtodo por comparao, capaz de identificar
diversos gneros musicais. Uma segunda linha de pesquisa
trabalha no reconhecimento de ritmos e melodias para
permitir a busca por solfejo, ou QBH (Query by Humming).
Ambos os processos so de interesse especial para a telefonia
mvel(AHMAD, 2006).
Mtodos de inteligncia artificial
Com a consolidao da Internet, o tratamento da informao
modifica-se e busca alternativas para uma nova ordem de
catalogao e pesquisa, conseqentemente revolucionando
os mtodos tradicionais de difuso do conhecimento. Novas
prticas impem a redefinio dos Gneros de Informao,
observando-se a nova demanda marcada pela produo
multimdia, que absorve mltiplos formatos e subverte
as categorias tradicionais que distinguem os tipos de
informao; e da noo de Campos de Informao, pois o
processo de dividir grupos de informaes por temas j no
corresponde ao potencial da rede, que nos permite navegar
de uma informao outra, correlata, e consolida uma
grande infoteca sem divises rgidas e que facilita a pesquisa
interdisciplinar e sem fronteiras; alm da flexibilizao do
conceito de Agentes da Informao, a distino entre emissor
e receptor se torna ambgua com a enorme interatividade
permitida pela rede, pois surgem os co-autores e os co-
leitores. E tambm se transforma, claro, o processo de
criao, pois a obra agora pode ser modificada por aquele
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 26 09/09/2008 10:19:15
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
27
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Desafios e avanos na recuperao automtica da informao audiovisual
que a usufrui e que com ela interage em diversos nveis. A
par destas mudanas paradigmticas, o acesso aleatrio
informao sugere que o acaso pode se tornar importante
ferramenta de pesquisa para obteno de solues, ajudando
na correo de erros e mesmo na otimizao dos resultados
da pesquisa.
O equilbrio entre a revocao e a relevncia em procedimentos
de busca e a criao de sistemas de reconhecimento de padres
capazes de interpretar aquilo que identificam so questes
crticas das tecnologias da recuperao da informao,
atualmente. As solues podem estar no desenvolvimento
de mquinas inteligentes, aptas compreenso de contedos e
observao dos contextos, e tambm na criao de interfaces
instrutivas entre usurios e sistemas. Algumas ferramentas
de inteligncia artificial utilizadas atualmente para isto so
as seguintes:
Redes Neurais uma classe de modelagem de prognstico
realizado por ajuste repetido de parmetro. A rede neural
consiste em um nmero de elementos interconectados e
organizados em camadas, que aprendem pela modificao
da conexo, criando vnculos entre as diversas camadas.
Modelos de Markov representaes matemticas
utilizadas para prever comportamentos de um sinal
atravs de uma seqncia de observaes. Em uma
cadeia de Markov supe-se uma fonte gerando tais sadas
observveis, denominada Fonte de Markov. Os smbolos
gerados a partir dessa fonte so dependentes apenas de
observaes anteriores, as quais foram geradas da mesma
forma e assim sucessivamente. O nmero de seqncias
anteriores consideradas para gerar uma sada conhecido
como ordem da Cadeia de Markov. Cada estado de uma
cadeia de Markov representa uma observao/smbolo de
um evento fsico correspondente, o que permite computar,
a partir de uma dada seqncia de smbolos, quais
foram os estados que geraram tal seqncia. No Modelo
Escondido de Markov (MEM) cada estado representa uma
probabilidade, de certa forma escondida no conjunto
dos smbolos que est representado. Um MEM, portanto,
possibilita computar a seqncia de estados com maior
probabilidade de ter gerado o conjunto observado de
smbolos do estado corrente.
Lgica Nebulosa tambm chamada fuzzy, um algoritmo
que permite simular um aspecto do raciocnio humano, a
habilidade de tomar decises racionais em condies de
incerteza e impreciso. Ao manipular inteligentemente
informaes imprecisas e conceitos indefinidos, pode inferir
uma resposta precisa para um problema cujo enunciado
inexato e incorporar tanto o conhecimento objetivo quanto
o conhecimento subjetivo.
Algoritmos Genticos desenvolvidos a partir dos
princpios da evoluo das espcies de Darwin, e em leis
e procedimentos da gentica. A partir de uma populao
de indivduos, representados por cromossomas (palavras
binrias), cada um associado a uma aptido (funes), que so
submetidos a um processo de evoluo (seleo, reproduo,
cruzamento e mutao), repetido em vrios ciclos em direo
sobrevivncia dos mais bem adaptados.
Para Sims (1991), podemos desenvolver modelos procedurais
a partir da seleo interativa com humanos, levando o
sistema ao aprendizado das estratgias de preferncias do
usurio e da lgica de sobrevivncia dos resultados mais
complexos e interessantes. Significa que poderemos ter o
auxlio da inteligncia artificial no somente para aplicaes
de reconhecimento de padres, indexao e busca, mas
tambm para a prpria estruturao e modelagem do sistema
e obteno de modelos de indexao semntica adaptveis a
diferentes domnios.
CONCLUSES
A preservao de documentos garante a anlise histrica e
fundamental como poltica de consolidao de uma identidade
nacional e planetria, mas diante de gigantesca massa
documental, muitas so as dificuldades que se apresentam.
A tecnologia digital pode nos ajudar a resolv-las, porm as
solues no so triviais e exigiro muitos anos de pesquisa
e desenvolvimento. A fragilidade dos meios e a inovao
contnua de processos e padres so grandes desafios que
devem ser encarados por iniciativas integradoras de longo
prazo, que sustentem a conservao e o acesso futuro ao que
estamos produzindo hoje em suporte eletrnico.
Verificamos que a recuperao de contedos em audiovisuais
vem obtendo sucesso especialmente na rea de reconhecimento
de padres e na identificao de imagens de cunho tcnico,
porm a pesquisa pela decodificao semntica de imagens,
a extrao automtica de metadados descritivos est
apenas comeando, e faz parte da criao da mquina ideal,
semelhante a ns mesmos. No caso da viso, provavelmente
melhor em certos aspectos, no somente pela capacidade
ampliada de perceber outras freqncias luminosas, mas
tambm na possibilidade de analisar maior quantidade de
informao visual, uma vez que estejam maduros os sistemas
de recuperao da informao audiovisual que foram aqui
brevemente examinados.
Artigo recebido em 21/08/2007
e aceito para publicao em 16/05/2008
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 27 09/09/2008 10:19:15
28
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
Ci. Inf., Braslia, v. 36, n. 3, p. 17-28, set./dez. 2007
Juliano Serra Barreto
(61) 8142-1476 - Formato 21 x 29,7cm - 1/1 BLACK - Fechamento e Editorao
REFERNCIAS
AHMAD, I. et al. Audio-based queries for video retrieval over java enabled mobile
devices. [S.l.]: Nokia Corporation, 2006. Disponvel em: <http://muvis.cs.tut.fi/
Documents/SPIE_05_06.pdf>. Acesso em: 2008.
ARAJO, A. de A. RIBC recuperao de informao com base no contedo visual. Belo
Horizonte: Universidade Federal de Minas Gerais, 2003.
ARIJON, Daniel. Grammar of the film language. Los Angeles, CA: Silman-James
Press, 1991.
AUMONT, J.; MARIE, M. Dicionrio terico e crtico do cinema. Campinas, SP:
Papirus Editora, 2003.
BEAGRIE l.; GREENSTEIN, D. A strategic framework for creating and preserving digital
collections. London, UK: UKs Arts and Humanities Data Service, 1998. Disponvel
em: <http://ahds.ac.uk/strategic.pdf>. Acesso em: 2008.
DIMITROVA, N. et al. Applications of video-content analysis and retrieval. IEEE
MultiMedia, v. 9/3, p. 4256, 20-?. Disponvel em: <http://2002.csdl.computer.
org/comp/mags/mu/2002/03/u3toc.htm>. Acesso em: 2008.
DOLLER, M.; LEFIN, N.; KOSCH, H. Evaluation of available MPEG-7 annotation
tools. Germany: University of Passau, 2007. Disponvel em: <https://www.i-know.
at/content/download/870/3615/file/D%C3%B6ller.pdf>. Acesso em: 2008.
DONDIS, D. A. Sintaxe da linguagem visual. So Paulo: Martins Fontes, 1997.
FERREIRA, M. Introduo preservao digital: conceitos, estratgias e actuais con-
sensos. Minho: Editora Escola de Engenharia da Universidade do Minho, 2006. Dis-
ponvel em: <https://repositorium.sdum.uminho.pt/bitstream/1822/5820/1/
livro.pdf>. Acesso em: 2008.
GLEICHER, M.; HECK, R.; WALLICK, M. A framework for virtual videography.
2002. Disponvel em: <http://www.cs.wisc.edu/graphics/Papers/Gleicher/Vi-
deo/smartgraphics-2002.pdf>. Acesso em: 2008.
GUIMARES, S. J. F. Video transition identification based on 2D image analysis. 2003.
Tese (Doutorado)- Departamento de Cincia e de Computao, UFMG, 2003.
KOMPATSIARIS, Y. Multimedia semantic analysis technologies and their potential uses.
2006. Disponvel em: <http://www.samt2006.org/presentations/ITI_MM%20
Analysis.pdf>. Acesso em: 2008.
NETO, N.; SILVA, E.; SOUSA, E. Software usando reconhecimento e sntese de voz:
o estado da arte para o portugus brasileiro. In: 2005 LATIN AMERICAN CON-
FERENCE ON HUMAN-COMPUTER INTERACTION, 2005, Mxico. Electronic
proceedings Disponvel em: <http://doi.acm.org/10.1145/1111360.1111396>.
Acesso em: 2008.
SERRANO, M. Um sistema de recomendao para mdias baseado em contedo nebuloso.
2003. Dissertao (Mestrado)- UFSCar, So Paulo, 2003.
SIMS, Karl. Artificial evolution for computer graphics. In: SIGGRAPH 91, 1991.
Proceedings... [S.l.: s.n.], 1991.
TARN, F. J. G. El anlisis del texto flmico. [S.l.]: Biblioteca Central da Universidade
da Beira Interior, 2006. Disponvel em: <http://www.recensio.ubi.pt/modelos/
documentos/documento.php3?coddoc=1597>.Acesso em: 2008.
VIRILIO, Paul. A mquina de viso. Rio de Janeiro: Jos Olympio, 1994.
URL DAS FIGURAS
Figura 1 - http://archive.nlm.nih.gov/pubs/long/spie-sd2003/spie-
sd2003.php
Figuras 2 e 3 - http://www.informedia.cs.cmu.edu/dli2/
Figura 4 - http://www.ee.uwa.edu.au/~braunl/improv/
Figura 5 - http://www.irishscientist.ie/DCUAS125.htm
Figura 6 - http://www.2002.org/CDROM/alternat/XS3/ima-
ge006.jpg
IBICT Ciencia da Informacao V36N3 v6 grafica.indd 28 09/09/2008 10:19:15