representao da informao. Analisa a evoluo histrica dos instrumentos que foram e vm sendo utilizados para a representao da informao. Apresenta uma descrio das vrias concepes que subjazem s metodologias para a representao da informao. Palavras-Chave Anlise de assunto. Indexao de assunto. Linguagem documentria. Representao da informao. Tesauro. Transferncia de informaes. _____________________________________________________________________ 1 Introduo A Cincia da Informao uma disciplina voltada para o estudo de fenmenos subjacentes produo, circulao e uso da informao. O estudo desses fenmenos tem como finalidade possibilitar a criao de instrumentos e o estabelecimento de metodologias que viabilizem a transferncia de informaes. O conceito de transferncia de informaes aqui compreendido como a interveno realizada por sistemas de organizao do conhecimento e recuperao da informao em determinadas aes comunicativas, que so aquelas que se do entre produtores e consumidores de conhecimento. As aes comunicativas, as quais tm como instrumento a linguagem, podem se realizar mediante a relao (a)entre falante e ouvinte; (b)entre imagem e aquele que assiste (c)entre texto e leitor. A Cincia da Informao volta-se, principalmente, para a ao comunicativa entre texto e leitor, tendo como objetivo principal criar condies para a sua realizao. Ela intervm na ao comunicativa textual para garantir que ela efetivamente ocorra, isto , que a informao torne-se acessvel quele que dela precisa. A interveno na ao comunicativa pode ser abordada de duas maneiras distintas: (a) sob o ponto de vista da recuperao da informao; ou (b) sob o ponto de vista da representao da informao. Sob o ponto de vista da recuperao da informao, nfase dada abordagem cognitiva, na qual a compreenso que o usurio tem de INSTRUMENTOS E METODOLOGIAS DE REPRESENTAO DA INFORMAO MARIA SALET FERREIRA NOVELLINO _____________________________________________________________________________________________ Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 37 determinadas disciplinas ou reas de assunto prevalecem, bem como seu comportamento no que diz respeito busca por informaes. As pesquisas desenvolvidas nessa rea voltam-se para a sada do sistema, preocupando-se em estabelecer interfaces amigveis e permitindo que o usurio interfira na linguagem do sistema (user-modelling). Vm desenvolvendo-se homologamente Cincia da Computao, aplicando princpios e mtodos da inteligncia artificial e da lingstica computacional. Sob o ponto de vista da representao da informao, nfase dada organizao do conhecimento. A organizao do conhecimento no mbito da Cincia da Informao diz respeito ao desenvolvimento e avaliao de teorias para anlise de determinadas reas de assunto visando a elaborao de instrumentos e mtodos para a representao das informaes geradas nessas reas de assunto. As pesquisas desenvolvidas nessa rea voltam-se para a entrada do sistema. Desenvolve-se homologamente compreenso cientfica de estrutura do conhecimento, projetando metodologias para a anlise de assunto e para a gerao de sistemas de classificao e linguagens documentrias O nosso objeto de estudo a transferncia de informaes desde um ponto de vista da representao da informao. 2 Representao da Informao A principal caracterstica do processo de representao da informao a substituio de uma entidade lingstica longa e complexa - o texto do documento - por sua descrio abreviada. O uso de tal sumarizao no apenas uma conseqncia de restries prticas quanto ao volume de material a ser armazenado e recuperado. Essa sumarizao desejvel pois sua funo demonstrar a essncia do documento. Ela funciona ento como um artifcio para enfatizar o que essencial no documento considerando sua recuperao, sendo a soluo ideal para organizao e uso da informao. O processo de representao da informao envolve dois passos principais: 1) anlise de assunto de um documento e a colocao do resultado desta anlise numa expresso lingstica. 2) atribuio de conceitos ao documento analisado. A realizao desta ltima fase pressupe uma linguagem documentria, instrumento de padronizao da indexao, a qual visa garantir que indexadores de um mesmo sistema ou sistemas afins usem os mesmos conceitos para representar documentos semelhantes. Ela tambm um instrumento de comunicao ao permitir que indexadores e usurios partilhem um mesmo vocabulrio. 3 Instrumentos para a Representao da Informao Nem sempre as linguagens documentrias foram pensadas como instrumentos de indexao e recuperao. Inicialmente, elas tinham como objetivo apenas padronizar as entradas de assunto de catlogos ou ndices. As primeiras foram as listas de cabealhos de assunto. Houve, a seguir, a adeso ao vocabulrio livre, isto , a opo pela ausncia Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ 38 Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 de um controle do vocabulrio usado para a indexao. Voltou-se, posteriormente, ao controle do vocabulrio, empregando-se as listas de termos autorizados. A preocupao com a criao de um instrumento de representao da informao voltado para a recuperao, e, conseqentemente, para demonstrar ao usurio a estrutura da linguagem de representao deu origem aos tesauros, tesauros facetados e classauros. As listas de cabealhos de assunto foram construdas para instrumentalizar a indexao de assuntos de documentos, que seriam registradas em fichas catalogrficas para compor o catlogo alfabtico de assuntos. Elas foram projetadas para bibliotecas de acervos gerais e compreendiam o conhecimento como um universo fragmentvel em disciplinas. As crticas s listas de cabealhos de assunto e aos sistemas pr-coordenados, nos quais eram utilizadas, eram as seguintes: a) Impossibilidade de acesso direto aos subcabealhos, o que significava a inacessibilidade a uma srie de conceitos. b) As listas enumeravam conceitos que deveriam ser usados tal como nelas apareciam e a insero de novos termos dependia de uma garantia literria, o que comprometia a especificidade da linguagem. c) A representao verbal e notacional exigiam uma demanda de tempo tal, que sempre haveria um volume considervel de material por ser processado e, portanto, irrecupervel. A necessidade de tratar tematicamente a informao de uma forma mais especfica devida especializao dos acervos, e de criar formas de representao/recuperao mais geis, devida ao tipo de material armazenado, relegou a um segundo plano, e, em casos mais radicais, levou ao abandono do controle do vocabulrio. A opo pelo vocabulrio livre foi caracterstica dos primeiros sistemas ps- coordenados, que no reuniam os termos no momento da indexao nem estabeleciam assunto principal. Atribuam-se quantos termos isolados fossem necessrios para descrever determinado documento cabendo ao usurio coorden-los no momento da busca. O primeiro sistema ps-coordenado, o Unitermo, foi previsto para uso em fichas. Com a introduo do computador nos sistemas de recuperao da informao, os sistemas ps- coordenados comearam a ser massivamente empregados em sistemas especializados. O computador foi introduzido na rea inicialmente para a produo de ndices impressos: ordenao automtica dos termos e ttulos. Mas com o desenvolvimento tecnolgico, o computador tornou-se instrumento no s para a produo e a compilao de ndices, mas tambm para a gerao dos prprios ndices: extrao e atribuio de palavras ou conceitos. Houve como conseqncia uma implementao de sistemas de indexao ps- coordenados. O computador permitia o uso da lgica booleana, lgica de combinao binria por soma, produto ou diferena que se ajustava coordenao de termos no momento da recuperao. Essa vantagem da rapidez no tratamento da informao comeou a ser derrubada pelas desvantagens apresentadas na recuperao de Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 39 documentos: multiplicidade de termos para representar um mesmo conceito, descontextualizao dos termos em relao ao assunto total do documento e tambm da rea de domnio da qual fazia parte. Este problema foi identificado como causado pela ausncia de um instrumento que padronizasse as linguagens dos produtores e usurios da informao. Voltou-se ao controle do vocabulrio. Para evitar falsas coordenaes passou-se a usar conceitos pr-coordenados e para evitar o uso de vrias palavras para um mesmo conceito, relacionamentos de equivalncia passaram a ser estabelecidos. Surgem ento as listas de termos autorizados, que continham registros de decises tomadas, em relao indexao, como modelos para os indexadores. Isto , era um registro de tomada de decises no que diz respeito seleo de conceitos para indexao. Quando, porm, estes instrumentos comearam a ser projetados no mais apenas como auxiliares da indexao mas tambm como da recuperao, outros mecanismos associativos passaram a ser considerados. Surgiram ento os tesauros, que adicionaram a este relacionamento entre os termos de indexao, outros, visando instrumentalizar no s a representao mas tambm a busca da informao. A Lista, desde a sua gnese, foi pensada apenas enquanto instrumento padronizador da indexao. J o Tesauro, foi idealizado como instrumento facilitador da comunicao dentro do sistema, padronizando as linguagens de indexao e de recuperao, a partir da terminologia da rea representada. Mas a ordenao puramente verbal (alfabtica) dos tesauros levaram a que se perdesse ou se deixasse de demonstrar, para os usurios do instrumento, a estrutura classificatria nele embutido. Para o estabelecimento de relaes genricas (hierrquicas e partitivas) e associativas quando da construo dos tesauros, caractersticas de divises so estabelecidas. Na ordenao alfabtica final, as categorias de conceitos que nortearam a diviso e os termos a elas subordinados perdem-se, pois no ficam explcitas no texto final do tesauro. A necessidade de deixar explcita a organizao de determinadas reas de assunto conduziu ao tesauro facetado e ao classauro. O tesauro facetado e o classauro apresentam duas ordenaes: a alfabtica e a classificada, o que permite tornar visvel ao usurio do tesauro, seja ele o indexador ou o usurio do sistema, a classificao a ele subjacente e que antes s era clara aos elaboradores do instrumento. Eles surgiram como tentativa terica e prtica de reunir as vantagens da linguagem documentria verbal e dos sistemas de classificao facetados, assumindo que a teoria da classificao facetada seria a base para a estruturao de uma linguagem documentria verbal. Fugmann (1), enumerou as vantagens dos sistemas de classificao e dos tesauros: A grande vantagem de um sistema de classificao que, nele, as caractersticas de diviso que nortearam o classificacionista ficam visveis. Os meta-conceitos so apresentados no corpo da tabela, demonstrando ao usurio a forma de organizao daquela rea do conhecimento. Alm disso, num esquema de classificao, os conceitos Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ 40 Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 que so subordinados a um conceito mais geral podem ser agrupados mais corretamente de acordo com a caracterstica de diviso que guiou esta reunio. Caractersticas de diviso do ao vocabulrio transparncia e assim enriquecem a busca, localizando e relacionando o conceito de acordo com suas caractersticas intrnsecas. Uma das vantagens do tesauro a possibilidade de expressar o conjunto completo de relaes associativas entre conceitos e no apenas relaes genricas. Alm disso, indexadores e usurios esto mais familiarizados com os termos expressos em linguagem natural de um tesauro do que com as notaes de um sistema de classificao. Um sistema de classificao e um tesauro usados concomitantemente seriam complementares um ao outro. Lanando-se mo das vantagens que cada um oferece, controlar-se-ia os pontos fracos que cada um apresenta. Teramos ento os tesauros facetados e os classauros. As linguagens documentrias verbais vm se aproximando, cada vez mais, da teoria da classificao. Elas que, em sua origem, pareciam negar os princpios classificatrios, buscam hoje nesta teoria fundamentos para a organizao de conceitos que transcendam as limitaes do arranjo verbal. A necessidade de transparncia da organizao do vocabulrio estimulou o aparecimento dos tesauros facetados e dos classauros. No incio da histria do controle do vocabulrio, linguagens verbais e notacionais eram independentes. A automatizao da indexao, de incio, resultou num privilegiamento da verbal porm sem controle ou padronizao e numa subvalorizao da notacional. Posteriormente, passa-se a buscar coordenar as linguagens verbais e notacionais num s instrumento: tesauros facetados e classauros. Alm disso, a teoria da classificao fortalecida como paradigma para a anlise conceitual de reas de assunto. Fatores que contriburam para a valorizao da teoria da classificao: a) Linguagem documentria como instrumento de busca e a conseqente necessidade de apresentar ao usurio a estrutura/classificao daquela rea do conhecimento de modo que pudesse desenvolver sua busca (a preocupao com a padronizao da representao deixa de ser primordial). b) O acesso direto coleo no atravs da estante mas mediante uma tela que exponha no s os itens sob cada conceito recuperado mas que o contextualize no universo do conhecimento sob interesse de pesquisa (a preocupao com a notao para armazenamento deixa de ser primordial). Com isso, a classificao como recurso para padronizao e guarda/endereamento de livros perde sua importncia colocando a classificao, mais propriamente, a teoria da classificao, no como instrumento mas como base para anlise, representao e busca da informao. 4 Metodologias para a Representao da Informao A partir de determinadas compreenses do significado de assunto, procedimentos para identific-lo so estabelecidos. Esses procedimentos vm a compor as metodologias para a representao da informao. Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 41 Lanando mo de modelo construdo por Albrechtsen(2), apresentaremos, abaixo, concepes metodolgicas para a representao da informao: (a) concepo simplstica: v os assuntos como entidades absolutas objetivas que podem ser derivadas como abstraes lingsticas diretas de documentos ou resumidas como cifras (figures) matemticas, usando mtodos de indexao estatstica. De acordo com esta concepo, a indexao pode ser totalmente automatizada. A concepo simplstica de anlise de assunto v os assuntos como abstraes diretas dos documentos. Seguindo esta concepo, extrair-se-ia automaticamente todas as palavras ou expresses dos textos. (b) concepo orientada ao contedo: envolve uma interpretao dos contedos dos documentos que vo alm do lxico e algumas vezes da estrutura superficial gramatical, que o limite dentro do qual a concepo simplstica opera. A anlise de assunto dos contedos dos documentos envolve a identificao de tpicos ou assuntos que no so explicitamente colocados na estrutura textual superficial de um documento, mas que so prontamente perceptveis por um indexador. Conseqentemente, envolve uma abstrao mais indireta do prprio documento. A concepo orientada ao contedo baseia-se tanto nas informaes explcitas quanto nas implcitas presentes nos textos. Por informao de assunto explcita entende-se informao que expressa na terminologia aplicada pelo produtor do documento. Um documento pode tambm trazer informao implcita, a qual no diretamente expressa pelo autor, mas prontamente compreendida ou interpretada pelo leitor (humano) de um documento. Esta a abordagem mais comum para a indexao de assuntos. Entretanto, ela se limita a representar ou resumir o documento como uma entidade isolada. A anlise de assunto focaliza o documento como uma fonte isolada de conhecimento, embora o indexador seguindo esta concepo possa considerar o contexto do documento: a coleo a qual ele pertence (intertextualidade). (c) concepo orientada necessidade: v as entradas de assunto (subject data) como instrumentos para a transferncia de conhecimento. Tendo como objetivo, conseqentemente, localizar informao pragmtica ou conhecimento. De acordo com esta concepo, os documentos so criados para a comunicao do conhecimento, e as entradas de assunto deveriam ser feitas para funcionar como instrumentos para mediar e traduzir este conhecimento visvel para quaisquer pessoas interessadas. A concepo de anlise de assunto orientada necessidade aplica-se aqui como um denominador comum para abordagens orientadas necessidade (request) e esquemas (frameworks) sociolgico-epistemolgicos para a indexao. A anlise de assunto, baseada na necessidade, vincula um foco diferente da anlise de assunto orientada ao contedo. Ao analisar um documento, o indexador no se concentra na representao ou resumo das informaes explcitas e implcitas, mas pergunta: como posso tornar este documento ou parte dele visvel aos usurios em potencial? Quais termos devo usar para levar este conhecimento queles interessados? Na indexao orientada s necessidades so Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ 42 Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 as buscas dos usurios por conhecimento em sistemas de recuperao da informao ou ndices que determinam o mtodo de indexao. Portanto, um documento analisado com o propsito de predizer sua potencialidade para atender a grupos particulares de usurios. Hjorland (3) analisou as vrias formas de tratar o conceito assunto em Cincia da Informao, e as caracterizou da seguinte maneira: (a) Concepo ingnua (naive): para a qual estabelecer o assunto de um documento no constituiria problema, pois seria um processo bvio: o ttulo daria a indicao necessria. (b) Idealismo subjetivo: toma conceitos e assuntos para expressarem as percepes ou vises de um ou mais indivduos. Aqui, a chave para o conceito de assunto repousa no estudo das mentes de algumas pessoas: autores ou usurios de documentos. (c) Idealismo objetivo: enquanto o idealismo subjetivo super-enfatiza as percepes, o idealismo objetivo tende a super-enfatizar certos aspectos de uma anlise terica e torn-los absolutos. As idias existiriam fora da conscincia humana, a priori, assim como so a priori dos conceitos expressos nos documentos. Estas idias ou assuntos teriam propriedades universais ou fixas, podendo ser analisadas num sistema universal ou separado em partes individuais. O idealismo objetivo se expressa num processo de classificao com a viso de que a classificao de documentos poderia ser feita independentemente do contexto no qual a classificao est sendo usada. (d) Conceito pragmtico de assunto: nesta viso, os documentos so indexados para serem recuperados. A indexao no se orienta pelo contedo mas pela demanda. Uma indexao orientada necessidade ou ao usurio, a descrio de um assunto o qual pode ser percebido como a relao entre as propriedades de um documento e uma necessidade do usurio real ou antecipada. (e) Teoria de assuntos realista/materialista: de acordo com esta abordagem, os documentos so um problema terico. De uma lado, os documentos refletem a viso subjetiva do autor dos assuntos tratados, e de outro lado, o documento tem propriedades objetivas , que seriam toda proposio (statement) verdadeira que pode ser dita sobre o documento. Essas propriedades emergem especialmente no uso do documento . Por exemplo, lendo um documento em conexo com uma atividade em particular: pesquisa, educao, etc. Hjorland e Albrechtsen identificam e enumeram as tendncias em representao da informao e apresentam uma tendncia emergente que se enquadra na concepo orientada necessidade e na teoria de assuntos realista/ materialista: a anlise de domnio. (4) A anlise de domnio uma metodologia para construo de modelos de representao da informao a partir da investigao de determinadas caractersticas de domnios especficos do conhecimento: a identificao de condies culturais, histricas e lingsticas que imponham exigncias particulares para a construo de modelos de domnio tais como sistemas de classificao ou tesauros. Compreende tambm um ponto de vista epistemolgico para identificar os paradigmas Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996 43 cientficos e tcnicos, abordagens de pesquisa e interesses de conhecimento nos domnios cobertos. (5) A anlise de domnio, como os sistemas de classificao tradicionais, volta-se para o estudo e anlise da estruturao de reas de assunto, porm com uma diferena fundamental: vai lidar com a contextualizao dos conceitos na sua rea de domnio, na qual o documento no deve ser interpretado como uma fonte isolada de conhecimento, mas como parte de uma rea de conhecimento, uma contribuio a ela. A anlise de domnio procura contextualizar a representao mais amplamente, considerando no s a terminologia empregada em determinada rea de assunto, ou os termos ocorrentes na literatura da rea; mas tambm o uso que feito da informao produzida, isto , a sua aplicao para a elaborao de servios e produtos; as pesquisas desenvolvidas, que representam os caminhos para onde a rea de assunto analisada vai progredindo; o ensino, que significa o conhecimento j estabelecido na rea. Referncias (1) FUGMANN, R. An interactive classaurus on the PC.International Classification, v.17, n.3/4, p.133-137,1990. (2) ALBRECHTSEN, Hanne. Subject analysis and indexing: from automated indexing to domain analysis. The Indexer, v.18, n.4, p.219-224, October 1993 (3) HJORLAND, Birger. The concept of subject in Information Science. Journal of Documentation, v.48, n.2, p.172-200, June 1992 (4) ________, ALBRECHTSEN, Hanne. Toward a new horizon in information science: domain analysis. Journal of the American Society for Informacion Science, v.46, n.6, p.400-425, 1995. (5) ALBRECHTSEN, Hanne (moderator). Domain analysis in Information Science: investigations into the nature and structure of knowledge domains for classification and retrieval. In: Proceedings of the 56th ASIS Annual Meeting. v.30, 1993. p.290-291. _____________________________________________________________________ Maria Salet Ferreira Novellino Mestra em Cincia da Informao UFRJ/IBICT. Doutoranda em Cincia da Informao UFRJ/ IBICT. _____________________________________________________________________ Title Tools and Methodologies for Information Representation Abstract In this article, the information representation process is put in context and conceptualized , and its instru- ments are historically analyzed. It also presents a de- scription of several conceptions that underlie the methodologies for information representation. Keyworlds Subject analysis. Subject indexing. Documentary languages. Information representation. Thesaurus.Information transfer. _____________________________________________________________________ Artigo recebido em 05/06/96 _____________________________________________________________________ Instrumentos e Metodologias de Representao da Informao Maria Salet Ferreira Novellino _____________________________________________________________________________________________ _____________________________________________________________________________________________ 44 Inf.Inf., Londrina, v.1, n.2, p.37-45, jul./dez. 1996