Você está na página 1de 10

A indexação e a representação de documentos visuais e audiosvisuais

Expor os princípios e praticas de descrição e acesso a documentos em formatos visuais, audiovisuais,


i.e., imagens fixas, em especial fotografias e reproduções fotográficas e imagens em movimento, como
programas de televisão ou filmes. Em todos os casos, trata-se de documentos que exigem uma
representação formal que os torne manipuláveis e, sobretudo, recuperáveis através de ferramentas de
busca normalizadas
São muitos e variados os contextos profissionais onde se manipulam imagens: galerias de arte e museus,
estúdios de arquitectura, engenharia, desenho e urbanismo; organismos de gestão de recursos
urbanísticos e ambientais; sistemas de informação geográfica; bases de dados cientificas; institutos de
meteorologia; estúdios de design y confecção de moda; sistemas de gestão de marcas e logótipos;
criminologia; arquivos fotográficos profissionais, históricos, publicitários; meios de comunicação,
emissoras e produtoras de televisão; videotecas; etc.
Também a presença de enormes quantidades de imagens na Internet fizeram aparecer motores de busca
especializados cujo objectivo é este tipo de documentos e é já evidente que a Internet vai ser um dos
veículos de distribuição de entretenimento e ócio do futuro mais imediato e portanto, a necessidade de
estudar as formas adequadas da manipular este tipo de documentos manifesta-se claramente.
O principal problema do acesso às imagens é um problema de linguagens. Os sistemas tradicionais, no
melhor dos casos, baseiam-se na produção de textos, mais ou menos controlados por parte de um
documentalista que, a partir da sua própria experiência, conhecimentos e memoria visual, intuição etc.,
extrai do documento visual o que considera representativo da imagem. Estes textos são estruturados,
seguindo as pautas de analise e representação documental utilizando linguagens construídas, ou não,
expressamente para imagens e passam a formar parte de um sistema de interrogação textual que se
coloca à disposição dos utilizadores. No pior dos casos não há tratamento de conteúdo e apenas a partir
dos títulos das obras é que se pode aceder à imagem. Para os utilizadores, o acesso às imagens padece
de problemas similares e a eles soma-se a dificuldade de utilizar linguagens documentais pensados por e
para profissionais da informação.

A imagem como objecto da Análise Documental

A análise documental é uma operação que se realiza nos documentos pertencentes a determinada
colecção cujo objectivo é obter uma representação de cada um deles que permita encontrar e recuperar o
documento de acordo com critérios previstos e informar sobre o mesmo através de um interface
adequado. Estas representações são mais manejáveis que o original, podem substituir o documento no

1
processo documental. Isto é especialmente útil em contextos visuais e audiovisuais porque o documento
original é frágil e, desta maneira, preserva-se o seu uso habitual.
Tratando-se de documentos visuais ou audiovisuais devemos ser conscientes de que nunca um texto vai
expressar suficientemente o que a imagem representa e, por tal, há que constatar que as fichas
documentais de imagens não podem substituir as próprias imagens. No entanto, as fichas podem incluir
uma grande quantidade de informação que recolha os atributos característicos de cada documento,
informação complementar que, estruturada de acordo com os critérios normalizadores próprios de todo o
processo documental, serão de grande ajuda para aquele que queira encontrar as imagens, recuperá-las
e saber algo sobre elas. São atributos característicos dos documentos visuais e audiovisuais, a sua
historia pessoal (atributos temáticos) e a relação com outros documentos (atributos relacionais).

Atributos biográficos

Uma fotografia tem uma origem, foi criada em determinado momento, por determinado fotografo e,
nalguns casos, foi “baptizada”. Serão atributos biográficos da fotografia:
- autor e as suas características (escola, estilo ou agencia)
- data
- lugar de realização
- titulo

Cada fotografia pode conter uma vida própria, pode ter sido publicada num livro ou revista, estar sujeita a
condições restritivas relativamente a possíveis usos, os direitos de autor, se foi apresentada em
exposições, se existem cópias etc. parece portanto conveniente que toda esta informação esteja
representada na ficha documental.

Um programa de televisão também tem a sua própria biografia; uma série de pessoas são responsáveis
pelo seu conteúdo, pela sua execução, pela sua gravação; foi difundido sob determinado título em
determinada data e canal; pode ter sido reemitido em canais do que uma ocasião e como obra intelectual,
também está sujeita aos direitos de autor.
Da mesma maneira, podemos reflectir sobre uma notícia de televisão, sobre um filme de ficção, sobre um
vídeo de família. Todos eles têm a sua história que deve ser convenientemente recolhida e transformada
em dados manipuláveis.

Atributos temáticos

2
Uma imagem tem um tema, um argumento, um significado, representa algo e trata acerca de algo. Uma
coisa é o que aparece na imagem, o que se vê, concreto e objectivo e outra é o que a imagem sugere,
aquilo sobre o que a imagem trata, abstracto e subjectivo.

O retrato de Inocêncio X de Velásquez e as suas múltiplas leituras e interpretações demonstram


claramente este facto: o quadro pode descrever-se de forma precisa e objectiva: é um retrato de meio
corpo de um homem maduro vestido com trajes de cor vermelho intenso etc. Mas não se pode expressar
de forma objectiva o que representa: a sabedoria, o poder de Deus na terra, o peso do poder ou a
ameaça do poder, ou também a solidão do poder, opiniões, todas elas subjectivas e sem duvida,
fortemente condicionadas por um contexto natural concreto e por umas referencias pessoais muito
determinadas.

Ao analisar o conteúdo de uma imagem, encontram-se três aspectos diferentes:


- denotação (o que aparece na imagem)
- conotação (o que a imagem sugere)
- contexto

A expressão da denotação surge através de uma leitura descritiva da imagem e assinala com claridade o
que realmente aparece. No campo da semiótica, entende-se por denotação a indicação que se
desprende da relação directa entre um significante e um significado. O significado denotado será aquele
conteúdo explicitamente reconhecido de forma unívoca, tanto pelo emissor como pelo receptor. Numa

3
imagem, um gato é um gato, uma rosa é uma rosa. A analogia existente entre a imagem e o referente
permite ao leitor identificar o conteúdo.

A ambiguidade da informação visual é especialmente significativa. Assim, uns planos gravados nuns
laboratórios de investigação farmacológica, podem servir para uma notícia sobre sida, outra sobre uma
epidemia de pneumonia, uma noticia sobre o preço dos medicamentos ou uma reportagem sobre o
trabalho qualificado da mulher.
Para organizar o estudo da denotação, a via mais pratica é a interrogação da imagem: aplicação das 5 W
características da noticia jornalística para averiguar todo o seu conteúdo:
1. quem aparece na fotografia? Identificar todas as pessoas que possam ser consideradas
protagonistas da mesma: nome, idade, sexo, profissão, função.
2. que situação ou que objectos estão representados na fotografia? Trata-se de identificar
situações, objectos, infra-estruturas, animais: conferencia de imprensa, autocarro urbano etc.
3. onde se fotografou, se filmou ou gravou? Há que precisar o lugar: Lisboa, estação dos comboios
etc.
4. quando se fez a fotografia, a filmagem ou a gravação? deve-se estabelecer com a máxima
precisão a data, estação, época: Inverno de 1957, 14 de Abril de 1946 etc.
5. como? Descrever as acções das pessoas, maquinas ou animais: políticos a assinar um acordo,
reformados sentados num banco de jardim, engarrafamento de trânsito numa auto-estrada etc.

A conotação é, evidentemente, o resto: o que não aparece de forma referencial e que, no entanto, a
imagem sugere: os aspectos religiosos, míticos, a psicanálise, o inconsciente, a ideologia, etc. ou seja, o
que faz pensar ao leitor.
Há uma parte objectiva da conotação, válida num determinado contexto cultural: certos gestos ou
atitudes, símbolos ou mesmo cores que mudam o seu significado em diferentes países ou culturas. Neste
sentido, a leitura da imagem passa pois, por uma memoria colectiva.
Há também uma parte subjectiva da conotação que depende da livre interpretação do documentalista.
Depois de todo o processo, as palavras-chave ou termos atribuídos irão servir para que os documentos
sejam recuperados.

O contexto também é muito importante, em especial para a fotografia de imprensa e a informação


audiovisual de informação e para a fotografia de carácter histórico e documental, marco de referência no
qual se situa a imagem é fundamental para a sua compreensão: um acontecimento de carácter político ou
social, um espectáculo de carácter desportivo ou cultural, a época em que se situa etc. espaço, tempo e
acontecimentos são os indicadores fundamentais do contexto.

4
É difícil sinalizar alguns elementos secundários, de interesse para a indexação: o conteúdo acidental
(objectos, actividades etc.) que podem ser objecto de interrogação por parte do utilizador; elementos
intangíveis (relações espaciais entre as pessoas, entre os objectos); convenções fotográficas
(organização típica de uma equipa de futebol, retrato de família); convenções de perspectiva e de
selecção; elementos semi-intangiveis (gestos, posturas, expressões faciais).

Atributos relacionais

São as relações que se podem estabelecer entre a imagem que vamos analisar e outros documentos:
- Relações por pertencerem a um mesmo conjunto, são as que se dão entre fotografias da mesma
reportagem ou de uma mesma série ou colecção. As que se estabelecem entre as sequencias de uma
mesma reportagem. As que se estabelecem entre o material bruto, a pré-montagem e a montagem final
de uma noticia.

- Relações de carácter intrínseco, são as que se estabelecem entre uma fotografia de imprensa e o texto
da notícia correspondente. Têm uma origem comum, o acontecimento que relatam, e são
complementares.

- Relações de carácter extrínseco, são as que se estabelecem em contextos hiper textuais ou no


processo de ilustração, como por exemplo, as que se estabelecem entre o texto e as ilustrações de um
livro infantil ilustrado ou numa enciclopédia ou as que se estabelecem entre um filme de origem literária e
a obra em que se baseia.

Indexação automática
Considerações gerais

Não podemos descurar os avanços da tecnologia informática, também nesta área, no entanto, em 1979
Salton afirmava que os procedimentos de análise automática de textos eram tão eficazes quanto os
métodos de indexação manual tradicionais.
Para Van SLype, a indexação automática consiste em fazer reconhecer ao computador os temros que
figuram no titulo, resumo ou mesmo no texto, e empregar esses termos tal e qual aparecem, ou
traduzidos em outros, equivalentes ou conceptualmente próximos, com o fim de os incorporar no ficheiro
de busca para facilitar ou propiciar a localização do documento.
Argumentos a favor da indexação:
- recrutamento e formação de analistas numa tarefa cada vez mais difícil

5
- o elevado custo que estes profissionais representam para as instituições
- o custo dos computadores e programas decresce cada vez mais

no entanto, não nos podemos deixar toldar por estes argumentos pois em pleno período de apogeu da
indexação automática, mesmo Gardin (1970) dizia: “toda a analise semântica de um texto cientifico é uma
operação eminentemente intelectual, que exige uma dupla competência, primeiro no plano da língua e
também no plano do pensamento cientifico (…) e a maquina deve ser instruída da mesma maneira nestes
dois campos de competência”.

Quem iniciou os métodos de indexaç~ºao automática foi H.P. Luhn (1957) coincidindo com os primeiros e
comprometedores trabalhos de Chomsky que abriam um novo caminho investigador sobre a estrutura da
frase. Tratava-se, pois, de uma primeira escola, baseada em métodos estatísticos e de recuperação de
informação superficiais e pouco rigorosos (indexação automática simples), que, paulatinamente foi dando
origem aos primeiros trabalhos de natureza morfológica e sintatica apoiados no conhecimento base dos
diferentes domínios científicos (conceitos num vocabulário controlado). A maior dificuldade era a
cnstruçao automática de thesauri / conhecimentos base, missão impossível para as maquinas do
momento, ainda que valesse a pena qualquer esforço dado que uma indexação automática controlada
desta maneira é mais consistente que a humana, oferece uma mais detalhada representação do
conhecimento e, foi criada tendo em consideração os processos de pesquisa que estão na raiz de todo a
indexação. Os numerosos métodos de indexação automática, cuja complexidade é crescente, podem
representar-se em três grupos:
METODOS ESTATISTICOS (OU METODOS POR EXTRACÇÃO)
Cálculo de frequência estatística
Frequência absoluta:
Sem considerar sinónimos
A considerar sinónimos
Segundo raízes
Segundo dicionário
Frequência relativa
Frequência segundo uma tabela:
Tabela especializada por corpus homogéneo
Tabela segundo a Lei de Zipf
Pesquisa por aproximação (ou métodos por co-ocorrência)
Sem eliminar polissemias
A eliminar polissemias
Calculo de distancia media

6
MÉTODOS POR ATRIBUIÇÃO
Comparação com um thesauro pré-estabelecido

MÉTODOS SINTÁTICOS
Analise morfológica
Ao nível da palavra
Ao nível da expressão
Ao nível da expressão disjuntiva
Análise sintatica
Eliminação de polissemias
Pelo reconhecimento de categorias gramaticais
Pela analise conceptual
Analise semântica
METODOS ESTATISTICOS (OU METODOS POR EXTRACÇÃO):
Tratam de calcular a frequência de aparição dois termos significativos, confrontando, numa primeira fase,
as palavras do texto, com um anti-dicionario de termos vazios (stop Word list), para eliminar as palavras
com baixo conteúdo informativo. O inconveniente deste método é que não tem em conta os sinónimos
nem os homónimos para calcular a frequência dos termos.

MÉTODOS POR ATRIBUIÇÃO:


A indexação realiza-se atribuindo palavras-chave procedentes de um thesaurus e executa-se em duas
etapas: busca de entradas do thesaurus correspondente aos conceitos presentes no texto, e a tradução
das ditas entradas, pelos descritores do thesaurus.

MÉTODOS SINTÁTICOS:
A indexação faz-se em duas fases: a primeira consiste na interpretação lexicográfica dos documentos nos
seus aspectos morfológicos e semânticos (pode haver problemas ao nível da eleição das unidades
lexicais); a segunda fase, consiste na interpretação sintática.

Segundo Chaumier e Dejean, existem uma série de dificuldades que se atravessam no caminho da
indexação automática:
1. qualidade e a complexidade dos sistemas
2. necessidade de dispor de documentos codificados, o que continua a ser um dos mais sérios
obstáculos ao avanço da indexação automática – este inconveniente é, essencialmente, de
ordem económica
3. o grau de desenvolvimento dos dicionários especializados por corpus, que resulta ainda,
embrionário

7
4. custos iniciais, ainda que em constante diminuição, devido à operatividade e eficiência dos
computadores de gama media
5. multiplicidade de linguagem de bases de dados, o que obriga à decomposição em múltiplas
bases monolingues
6. reticencias psicológicas, pois alguns continuam a pensar que a indexação é um processo
intelectual que noa pode realizar-se em mais nenhum lado que não no centro de documentação
e por pessoal especializado, ainda que a provável implantação dos sistemas de inteligência
artificial nos faça ser optimistas relativamente a esse assunto, pois instaurarão o necessário
dialogo entre o homem e o sistema. O desenvolvimento do hipertexto deve ser o ponto de
partida dos trabalhos para uma nova aproximação à representação do conteúdo nos
documentos.

Um desenvolvimento recente no campo da informática, os sistemas inteligentes, supõem ser uma grande
ajuda no processo de indexação já que estes sistemas, contrariamente ao computador tradicional, estão
pensados para explicar as suas decisões e as suas regras podem basear-se no que os peritos julguem
ser os melhores métodos.
O valor da indexação automática, segundo Jones, aumentará quando a literatura produzida de forma
legível à máquina, seja mais importante do que a produzida por meios tradicionais. Entretanto, o
computador será sempre de uma grande ajuda para o indexador na elaboração dos índices, aliviando-o
de tarefas rotineiras como a ordenação ou a impressão. No entanto, e de momento, as acções
especificas de determinar o que constitui a matéria indexável do texto, e como se deve expressar, são
funções ainda da inteligência e criatividades humanas,

Programas de indexação:
Na selecção de software de indexação, h´que conhecer algumas das suas características referentes a:
formato (formato do índice final; numero máximo dos níveis dos subcabeçalhos, impressão das entradas
repetidas…); entrada e edição (apresentção e impressão das entradas em qualquer momento do
processo, duplicação de registos, manipulação de registos fora da sua ordem alfabética…); ordenação
(formas de ordenar o índice, rapidez na ordenação…) e impressão (sublinhados, negritos, itálicos…).
Entre as fontes para localizar programas de indexação sobressaem os trabalhos de FETTERS, L. “A
guide to indexing software”, Filadélfia, American Society of Indexers, 1987

8
Índices produzidos por computador
Um índice é uma série ordenada de pontos de acesso que conduzem desde informação conhecida pelo
utilizador, a informação adicional, previamente desconhecida. O seu objectivo é o de contribuir para a
recuperação dos documentos armazenados.
Entre os índices produzidos por computador destacam-se:
KWIC (KEY WORD IN CONTEXT)
KWOC (KEY WORD OUT OF CONTEXT)
INDICES DE CITAÇÕES

KWIC: faz aparecer cada palavra significativa do título numa lista alfabética, com permutação do título,
para que a palavra seleccionada esteja sempre na mesma posição, precedida e sucedida pelas que
formam o contexto, que servira de elemento clarificador da correspondente palavra-chave.
Cada entrada aparece numa so linha, ainda que o titulo seja mais extenso. Este tipo de índice tem vários
inconvenientes:
- tempo de busca prolongado (pois o utilizador deve experimentar varias abordagens do seu tema em
ordem alfabética)

9
- não exerce nenhum controlo sobre a terminologia, ao serem seleccionados os termos do próprio titulo
em linguagem natural
- são inúteis se se aplicam a uma colecção documental restrita.

KWOC: as palavras significativas dispõem-se por ordem alfabética, mas sem a permutação do titulo, de
forma a que este aparece na ordem normal da sua apresentação e a palavra retida – na linguagem
natural também – como cabeçalho. Não é necessário limitar o numero de caracteres e o titulo pode ser
escrito em várias linhas. Os seus inconvenientes são similares aos indicados para o índice KWIC.

INDICE DE CITAÇÕES (CITATION INDEX): cada vez mais apreciado na recuperação de informação, são
índices por autores, de concepção particular, já que, para alem de citar juntamente com o autor os seus
trabalhos , ordenados cronologicamente ou alfabeticamente, acrescenta, a cada referencia, a lista de
autores e de documentos que citaram essa referecnia na sua prorpia bibliografia. É completado por um
índice de fontes e por um índice permutado. Este sistema permite ao investigador, organizar a busca por
filiação, pois conhecendo um autor e algumas das suas obras, é relativamente fácil localizar outros
autores que trataram os mesmos temas, pois estes citaram o primeiro nos seus trabalhos.

10

Você também pode gostar