Você está na página 1de 147

Edberto Ferneda

Recuperao de Informao:
Anlise sobre a contribuio da Cincia da Computao
para a Cincia da Informao
Tese apresentada Escola de Comunicao e Artes
da Universidade de So Paulo como exigncia
parcial para obteno do ttulo de Doutor em
Cincias da Comunicao.
rea de concentrao: Cincia da Informao e
Documentao.
Orientadora: Prof
a
Dr Johanna Wilhelmina Smit
So Paulo
2003
A

LCIO FERNEDA
e
ELZA FERNEDA

Meus pais.
ii
Agradecimentos
Prof
a
Dr
a
Johanna Smit,
por me propiciar a oportunidade de realizar este trabalho,
pela indicao de rumos e pelo constante incentivo.

Prof
a
Dr
a
Nair Kobashi,
pelo apoio e preciosas dicas.

Cristina Ortega,
pela amizade e apoio.

Ao amigo Guilherme Atade Dias,
parceiro nestes anos de lutas e angstias,
mas tambm de muitas realizaes.

Eliany Alvarenga de Arajo,
culpada por minha intromisso na Cincia da Informao,
pela amizade e inspirao.

Aos meus irmos, Edilson e Edmir,
pela ajuda e apoio constantes.

Valquiria, companheira desde tempos imemoriveis.
iii
POESIA

Gastei uma hora pensando um verso
que a pena no quer escrever.
No entanto ele est c dentro
inquieto, vivo.
Ele est c dentro
e no quer sair.
Mas a poesia deste momento
inunda minha vida inteira.

Carlos Drummond de Andrade
iv
Resumo
Desde o seu nascimento, a Cincia da Informao vem estudando mtodos para o tratamento
automtico da informao. Esta pesquisa centrou-se na Recuperao de Informao, rea que
envolve a aplicao de mtodos computacionais no tratamento e recuperao da informao,
para avaliar em que medida a Cincia da Computao contribui para o avano da Cincia da
Informao. Inicialmente a Recuperao de Informao contextualizada no corpo
interdisciplinar da Cincia da Informao e so apresentados os elementos bsicos do
processo de recuperao de informao. Os modelos computacionais de recuperao de
informao so analisados a partir da categorizao em quantitativos e dinmicos.
Algumas tcnicas de processamento da linguagem natural utilizadas na recuperao de
informao so igualmente discutidas. No contexto atual da Web so apresentadas as tcnicas
de representao e recuperao da informao desde os mecanismos de busca at a Web
Semntica. Conclui-se que, apesar da inquestionvel importncia dos mtodos e tcnicas
computacionais no tratamento da informao, estas se configuram apenas como ferramentas
auxiliares, pois utilizam uma conceituao de informao extremamente restrita em relao
quela utilizada pela Cincia da Informao.

Palavras-chave: Informao, Cincia da Informao, Cincia da Computao, Recuperao
de Informao, Modelos de recuperao de informao.
v
Abstract
Since its birth, Information Science has been studying methods for the automatic treatment of
information. This research has focused on Information Retrieval, an area that involves the
application of computational methods in the treatment and retrieval of information, in order to
assess how Computer Science contributes to the progress of Information Science. Initially,
Information Retrieval is contextualized in the interdisciplinary body of Information Science
and, after that, the basic elements of the information retrieval process are presented.
Computational models related to information retrieval are analyzed according to
"quantitative" and "dynamic" categories. Some natural language processing techniques used
in information retrieval are equally discussed. In the current context of the Web, the
techniques of information retrieval are presented, from search engines to the Semantic Web. It
can be concluded that in spite of the unquestionable importance of the computational methods
and techniques for dealing with information, they are regarded only as auxiliary tools, because
their concept of "information" is extremely restrict in relation to that used by the Information
Science.

Keywords: Information, Information Science, Computer Science, Information Retrieval,
Information Retrieval Models.
vi
Sumrio
Agradecimentos. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .i ii ii i Agradecimentos
Resumo. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . v v Resumo
Abstract. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . v vi i Abstract
Sumrio. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .v vi ii i Sumrio
Lista de Figuras . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . i ix x Lista de Figuras
1 1 Introduo . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 1 1 Introduo
1.1 Hiptese de pesquisa ................................................................................................. 1
1.2 Objetivos da pesquisa................................................................................................ 2
1.3 Desenvolvimento da pesquisa ................................................................................... 3
2 2 A Cincia da Informao . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 4 4 A Cincia da Informao
2.1 A Cincia da Informao e o conceito de informao .............................................. 6
2.2 A Cincia da Computao e sua relao com a Cincia da Informao ................. 10
3 3 A Recuperao de Informao. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 1 14 4 A Recuperao de Informao
4 4 Modelos quantitativos. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 2 20 0 Modelos quantitativos
4.1 Modelo booleano..................................................................................................... 21
4.1.1 Operadores booleanos ................................................................................. 22
4.1.2 Operadores de proximidade ........................................................................ 24
4.2 Modelo vetorial ....................................................................................................... 27
4.2.1 Representao vetorial ................................................................................ 28
4.2.2 Clculo da similaridade............................................................................... 30
4.2.3 O sistema SMART...................................................................................... 31
4.3 Modelo probabilstico.............................................................................................. 35
4.3.1 Recuperao probabilstica ......................................................................... 38
4.4 Modelo fuzzy............................................................................................................ 43
4.4.1 Conjuntos fuzzy ........................................................................................... 44
4.4.2 Conjuntos fuzzy na recuperao de informao ......................................... 46
4.5 Modelo booleano estendido..................................................................................... 48
vii
4.6 Concluso ................................................................................................................ 53
5 5 Modelos Dinmicos . .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 5 55 5 Modelos Dinmicos
5.1 Sistemas Especialistas ............................................................................................. 55
5.1.1 Sistemas Especialistas na recuperao de informao................................ 60
5.2 Redes neurais........................................................................................................... 62
5.2.1 Redes neurais artificiais .............................................................................. 63
5.2.2 Aprendizagem............................................................................................. 65
5.2.3 Redes Neurais na recuperao de informao ............................................ 66
5.3 Algoritmos genticos............................................................................................... 71
5.3.1 Evoluo computacional ............................................................................. 72
5.3.2 Algoritmos Genticos na recuperao de informao ................................ 77
5.4 Concluso ................................................................................................................ 81
6 6 Processamento da Linguagem Natural. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 8 82 2 Processamento da Linguagem Natural
6.1 Normalizao de variaes lingsticas................................................................... 84
6.2 Identificao de termos compostos ......................................................................... 85
6.3 Resoluo de ambigidade...................................................................................... 86
6.4 Concluso ................................................................................................................ 89
7 7 Recuperao de Informao na WEB. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 9 91 1 Recuperao de Informao na WEB
7.1 Caractersticas da Web ............................................................................................ 92
7.2 Mecanismos de busca.............................................................................................. 96
7.2.1 Indexao Manual ....................................................................................... 97
7.2.2 Indexao Automtica................................................................................. 99
7.2.3 Especificao de busca.............................................................................. 101
7.2.4 Meta buscas............................................................................................... 103
7.3 A linguagem XML ................................................................................................ 105
7.4 Web Semntica...................................................................................................... 110
7.4.1 A camada RDF-RDF Schema ................................................................... 111
7.4.2 A camada de Ontologias ........................................................................... 116
7.4.3 As camadas Lgica, Prova e Confiana.................................................... 119
7.5 Concluso .............................................................................................................. 120
8 8 Concluso. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 1 12 22 2 Concluso
8.1 Sugestes para pesquisas futuras........................................................................... 125
Bibliografia. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. .. . 1 12 27 7 Bibliografia

viii
Lista de Figuras
Figura 1 Representao do processo de recuperao de informao ...................................... 15
Figura 2 Representao do resultado de uma expresso booleana conjuntiva ( AND ).......... 22
Figura 3 Resultado de uma busca booleana disjuntiva ( OR )................................................. 22
Figura 4 Resultado de uma busca negativa ( NOT )................................................................ 23
Figura 5 Resultado de uma busca booleana com o operador NOT......................................... 23
Figura 6 Resultado de uma expresso de busca booleana utilizando parnteses .................... 24
Figura 7 Representao vetorial de um documento com dois termos de indexao............... 28
Figura 8 Representao vetorial de um documento com trs termos de indexao................ 28
Figura 9 Espao vetorial contendo dois documentos .............................................................. 29
Figura 10 Representao de uma expresso de busca em um espao vetorial ........................ 29
Figura 11 Subconjuntos de documentos aps a execuo de uma busca ................................ 39
Figura 12 Pertinncia de um elemento em relao a um conjunto.......................................... 44
Figura 13 Representao das funes
alto e

baixo
................................................................... 45
Figura 14 Representao fuzzy de um documento estruturado................................................ 47
Figura 15 Representao de documentos em um espao bidimensional................................. 49
Figura 16 Estrutura de um sistema especialista....................................................................... 56
Figura 17 Exemplo de rede semntica na representao do conhecimento ............................ 59
Figura 18 Exemplo da utilizao de frames na representao do conhecimento.................... 60
Figura 19 Representao simplificada de um neurnio .......................................................... 62
Figura 20 Modelo matemtico de um neurnio....................................................................... 64
Figura 21 Representao de uma rede neural artificial ........................................................... 65
Figura 22 Representao de rede neural aplicada recuperao de informao .................... 66
Figura 23 Exemplo de uma rede neural................................................................................... 67
Figura 24 Arquitetura de rede neural do sistema AIR............................................................. 70
Figura 25 Seqncia de execuo de um algoritmo gentico.................................................. 73
Figura 26 Corpus com documentos representados por quatro cromossomos...................... 78
Figura 27 Partes de uma URL ................................................................................................. 93
ix
Figura 28 Exemplo de um arquivo HTML e sua visualizao................................................ 94
Figura 29 Diretrio de um servidor FTP apresentado em um Browser .................................. 96
Figura 30 Pgina Yahoo! referente categoria Biblioteconomia e Cincia da Informao... 98
Figura 31 Comparao entre as linguagens HTML e XML.................................................. 105
Figura 32 Exemplo de utilizao de uma DTD em um documento XML ............................ 106
Figura 33 Comparao entre DTD e XML Schema .............................................................. 108
Figura 34 Exemplo de utilizao de um XML Schema em um documento XML................ 109
Figura 35 Arquitetura da Web Semntica ............................................................................. 111
Figura 36 Definio RDF Schema da classe Autor ............................................................... 114
Figura 37 Definio RDF Schema da classe Publicao....................................................... 114
Figura 38 Definio RDF Schema da classe Livro ............................................................... 115
Figura 39 Documento RDF definido a partir de um RDF Schema ....................................... 116
Figura 40 Exemplo de ontologia utilizando a linguagem OIL.............................................. 118

x
1
1

Introduo

O acelerado desenvolvimento tecnolgico e a premncia de mtodos adequados para o
tratamento da informao em grandes repositrios como a Internet impem uma aproximao
mais efetiva entre a Cincia da Computao e a Cincia da Informao. Porm, h de se
observar as diferenas entre essas duas cincias que, embora compartilhem alguns interesses
comuns, esto posicionadas em campos cientficos bastantes distintos.
Nos ltimos anos a palavra informao tem sido muito utilizada no s na
constituio de discursos, mas tambm na criao de disciplinas ligadas Cincia da
Computao ou Informtica, alm da Cincia da Informao. Com o imperativo tecnolgico
da sociedade contempornea, o conceito de informao que se impe aquele que permite
sua operacionalizao atravs do computador ou outros dispositivos digitais.
1.1 Hiptese de pesquisa
Apesar do objetivo comum que motivou o nascimento quase contemporneo da
Cincia da Informao e da Cincia da Computao, observa-se uma grande distncia terica
entre estas cincias. Esta distncia justificada inicialmente pelo fato de se tratarem de dois
campos cientficos bastante distintos. Em uma anlise mais aprofundada verifica-se que a
informao, objeto de comum interesse de ambas as cincias, paradoxalmente o que mais as
distancia. Na Cincia da Informao o conceito de informao est associado semntica:
1
[...] enquanto objeto da Cincia da Informao, a informao aparece
como produto de um processo intencional, como algo construdo, portanto,
cujo propsito o de promover a adequao significativa dos contedos.
(Tlamo, 1997, p.11);
A informao comporta um elemento de sentido. um significado
transmitido a um ser consciente por meio de uma mensagem inscrita em um
suporte espao-temporal: impresso, sinal eltrico, onda sonora, etc. (Le
Coadic, 1996, p.5).
Na Cincia da Computao a definio de informao se aproxima de Shannon e
Weaver (1949), mais adequada construo de sistemas informticos nos quais dados podem
ser totalmente descritos atravs de representaes formais, podendo ser quantificados,
armazenados em um computador e processados por ele:
[...] no possvel processar informao diretamente em um computador.
Para isso necessrio reduzi-la a dados. (Setzer, 2001, p.242-243).
Em vista das diferenas entre a noo de informao utilizada pela Cincia da
Informao, cujo componente semntico evidente, e o conceito de informao empregado
pela Cincia da Computao, a hiptese que se levanta neste trabalho que, no que se refere
ao processo de recuperao de informao, as tcnicas e procedimentos provenientes da
Cincia da Computao apresentam-se apenas como mecanismos auxiliares no tratamento
da informao, tal como definida no contexto da Cincia da Informao.
1.2 Objetivos da pesquisa
O objetivo geral desta pesquisa pode ser enunciado da seguinte maneira:
Avaliar em quais aspectos a Cincia da Computao contribui para o
avano da Cincia da Informao, no que diz respeito ao processo de
recuperao da informao.
Este objetivo pode ser desdobrado nos seguintes objetivos especficos:
Analisar os recursos oriundos da Cincia da Computao mobilizados pelos
sistemas de recuperao de informao;
2
Analisar os impactos dos recursos oriundos da Cincia da Computao no
processo de recuperao de informao;
Verificar, face ao contexto atual da Web, como interagem os conceitos e
processos da Cincia da Computao e da Cincia da Informao no que diz
respeito aos mecanismos de recuperao de informao.
1.3 Desenvolvimento da pesquisa
O presente trabalho inicia pela contextualizao da Recuperao de Informao como
produto da interdisciplinaridade da Cincia da Informao (Captulo 2). No Captulo 3 sero
apresentados os elementos bsicos do processo de recuperao de informao. Em seguida
sero descritos os principais modelos de Recuperao de Informao empregados em sistemas
automatizados, iniciando pelos clssicos modelos quantitativos (Captulo 4) e avanando para
os modelos dinmicos (Captulo 5). No Captulo 6 sero vistas algumas tcnicas de
processamento da linguagem natural utilizadas na recuperao de informao. Para finalizar
ser feita uma anlise da recuperao de informao na Web (Captulo 7). A contribuio
representada pela Cincia da Computao na Recuperao de Informao dever ser
dimensionada, a ttulo de concluso (Captulo 8).
3
2
2

A Cincia da Informao

O nascimento da Cincia da Informao pode ser visto como conseqncia de uma
sucesso de tcnicas relacionadas com o registro fsico do conhecimento, principalmente a
escrita. A escrita permitiu registrar, estocar e recuperar o conhecimento, gerando uma espiral
cumulativa de textos cujo potencial foi amplificado quando Johann Gutenberg inventou o tipo
mvel e apresentou a primeira prensa na Europa.
O sucesso do invento de Gutenberg s no foi mais imediato pelo fato de que naquela
poca poucas pessoas sabiam ler. Em uma sociedade basicamente agrria, os camponeses
nada tinham a ganhar com a alfabetizao, e em geral no aspiravam a ela. Porm, a
Revoluo Industrial iniciada em meados do sculo XVIII provocou o xodo das populaes
do campo para a cidade e deu impulso procura por mais informao e qualificao
necessria para sua interpretao e utilizao. A construo de estradas e o surgimento das
estradas de ferro facilitaram a expanso do comrcio e a distribuio de livros e jornais. A
velocidade das mensagens passou da velocidade do cavalo para a da locomotiva e desta para a
eletricidade.
Em 1822, Nipce apresentou a primeira fotografia, seguido por Louis Daguerre em
1839. A fotografia, que comeou como diverso de amadores, em pouco tempo aliou-se
impresso nas tcnicas de ilustrao de livros e jornais. Assim como a palavra falada, a
imagem pde ento ser preservada e transmitida entre geraes. Na dcada de 1840, John
Benjamin Dancer combinou a fotografia com a microscopia e se tornou o pioneiro da
4
microfotografia e da microfilmagem. Em 1842, Alexander Bain escaneou uma imagem e
enviou o resultado pelo telgrafo, criando o primeiro fac-simile da histria. Novas invenes
se seguiram durante a segunda metade do sculo XIX, a maioria delas ligadas transmisso
de informao. Em 1876 Alexander Graham Bell, que em 1844 havia inventado o telgrafo,
estendeu o alcance da voz humana ao inventar o seu telgrafo falante, o telefone. No ano
seguinte Thomas Edison criou a primeira mquina de gravar sons e em 1879 projetou a
lmpada eltrica. (McGarry, 1999, p. 90-93).
Segundo Castells (1999, p. 53), esse perodo de transformaes tecnolgicas em
acelerao marca uma descontinuidade histrica irreversvel na base material da espcie
humana. O repentino aumento de aplicaes tecnolgicas transformou os processos de
produo e distribuio de bens e servios, criou uma grande quantidade de novos produtos e
mudou de maneira decisiva a localizao das riquezas e do poder no mundo, que ficou ao
alcance dos pases e elites capazes de comandar esse sistema tecnolgico.
No incio do sculo XX o termo Documentao foi cunhado por Paul Otlet, que
tambm a sistematizou e previu tecnologias que seriam teis para sua operacionalizao.
Otlet, em seu Trait de Documentation (1934), mostra-se interessado em toda novidade
tecnolgica que permita condensar e organizar a informao de acordo com suas necessidades
e objetivos. Otlet e Henri La Fontaine entraram para a histria da biblioteconomia como
autores da Classificao Decimal Universal (CDU). Em 1895 fundam em Bruxelas, na
Blgica, o International Institute for Bibliography - IIB, marco no desenvolvimento do que
veio a se chamar Documentao e posteriormente Cincia da Informao. O primeiro objetivo
do IIB era a elaborao do Repertrio Bibliogrfico Universal (RBU), que tinha a pretenso
de sintetizar toda a produo bibliogrfica internacional em fichas padronizadas. Para Otlet as
fichas rompiam a linearidade do texto escrito, permitindo a livre associao entre as
informaes nelas registradas. Devidamente conectadas atravs dos cdigos da CDU, essa
rede de fichas pode ser vista como um prenncio do hipertexto. As solicitaes de pesquisa
nesse grande banco de dados eram feitas atravs do correio e sua operacionalizao era
bastante demorada. Em uma poca na qual no existiam fotocopiadoras ou computadores, era
necessrio remover as fichas do arquivo, copi-las mo e recoloc-las de volta no arquivo.
Alm da execuo das buscas, era tambm tarefa dos funcionrios sintetizar e copiar nas
fichas os materiais enviados por colaboradores de toda a parte do mundo (Rayward, 1997).
5
Otlet era um homem com imensa curiosidade em relao s inovaes tecnolgicas
que pudessem ser teis no processo de condensao e registro da informao. Fez diversas
experimentaes com a microfilmagem e previu um futuro promissor para uma inveno
surgida na poca: a televiso. Anteviu vrios equipamentos tecnolgicos como o fax, os
microcomputadores, as work-stations, a Internet (Otlet, 1934, p. 389-391). Paul Otlet morreu
em 1944, s vsperas do final da Segunda Guerra.
Aps a Segunda Guerra Mundial, o entusiasmo na busca de solues para os
problemas advindos da exploso informacional pode ser resumido pelo artigo de Vannevar
Bush (1945) intitulado As We May Think. Nesse artigo, Bush define o problema do
gerenciamento da informao e prope como soluo uma mquina, denominada Memex, que
agregava as mais modernas tecnologias de informao existentes na poca. O Memex nunca
foi construdo, mas as idias que inspiraram sua idealizao ainda fazem parte das aspiraes
de pesquisadores e cientistas da atualidade. Em uma escala muito maior, enfrenta-se hoje os
mesmos problemas apontados por Otlet, e, como Bush, busca-se na tecnologia a soluo para
tais problemas.
2.1 A Cincia da Informao e o conceito de informao
Segundo Shera e Cleveland (1977), a dcada de 60 forneceu um clima favorvel para
o desenvolvimento da Cincia da Informao. Os problemas relacionados com o tratamento
da informao comeavam a ser abordados por parte da comunidade cientfica mundial, ao
mesmo tempo em que se vivia um perodo de acelerado desenvolvimento tecnolgico.
A primeira formulao do que seria a Cincia da Informao surgiu como resultado
das conferncias do Georgia Institute of Technology (ou simplesmente Georgia Tech),
realizadas entre 1961 e 1962:
[Cincia da Informao ] a cincia que investiga as propriedades e
comportamento da informao, as foras que regem o fluxo da informao
e os meios de processamento da informao para uma acessibilidade e
usabilidade timas. Os processos incluem a origem, disseminao, coleta,
organizao, recuperao, interpretao e uso da informao. O campo
deriva de ou relaciona-se com a matemtica, a lgica, a lingstica, a
psicologia, a tecnologia da computao, a pesquisa operacional, as artes
6
grficas, as comunicaes, a biblioteconomia, a administrao e alguns
outros campos (Shera e Cleveland, 1977, p. 265).
Em 1968, Harold Borko formulou uma definio complementar, ressaltando suas
caractersticas tanto de cincia pura como de cincia aplicada.
Cincia da Informao a disciplina que investiga as propriedades e o
comportamento da informao, as foras que regem o fluxo da informao
e os meios de processamento da informao para acessibilidade e
usabilidade timas. Est relacionada com o corpo de conhecimento que
abrange a origem, coleta, organizao, armazenamento, recuperao,
interpretao, transmisso, transformao e utilizao da informao. Isto
inclui a investigao das representaes da informao nos sistemas
naturais e artificiais, o uso de cdigos para a transmisso eficiente de
mensagem, e o estudo dos dispositivos e tcnicas de processamento de
informao tais como computadores e seus sistemas. uma cincia
interdisciplinar derivada de e relacionada a vrios campos tais como
matemtica, lgica, lingstica, psicologia, tecnologia da computao,
pesquisa operacional, artes grficas, comunicaes, biblioteconomia,
administrao e outros campos similares. Possui um componente de cincia
pura, que investiga o assunto sem considerar suas aplicaes, e um
componente de cincia aplicada, que desenvolve servios e produtos.
(Borko, 1968, p. 3).
Saracevic (1996, p. 47), aponta que:
a Cincia da Informao um campo dedicado s questes cientficas e
prtica profissional voltadas para os problemas da efetiva comunicao do
conhecimento e de seus registros entre os seres humanos, no contexto
social, institucional ou individual do uso e das necessidades de informao.
No tratamento destas questes so consideradas de particular interesse as
vantagens das modernas tecnologias informacionais.
O componente tecnolgico, principalmente a tecnologia da computao, aparece em
vrias definies de Cincia da Informao. Alguns autores inserem a tecnologia em uma
7
posio central, outros a colocam como resultado da interdisciplinaridade da Cincia da
Informao.
A natureza interdisciplinar da Cincia da Informao propicia o surgimento de
diferentes correntes e estimula discusses sobre o seu objeto de estudo, a informao. Nesse
ambiente, onde se juntam conceitos de reas diversas, a construo de conceitos
interdisciplinares apresenta-se como um grande desafio. De todo modo, a sistematizao da
Cincia da Informao deve passar obrigatoriamente pela definio do conceito de
informao.
Segundo McGarry (1999, p. 3), a palavra informao tornou-se popular logo aps a
inveno da imprensa no sculo XV, quando normalmente se utilizava uma palavra em latim
para expressar uma nova idia ou conceito. A raiz do termo vem de formatio e forma, ambos
transmitindo a idia de moldar algo ou dar forma a algo indeterminado.
Claude Shannon define informao como:
O que acrescenta algo a uma representao [...] Recebemos informao
quando o que conhecemos se modifica. Informao aquilo que
logicamente justifica alterao ou reforo de uma representao ou estado
de coisas. As representaes podem ser explicitadas como num mapa ou
proposio, ou implcitas como no estado de atividade orientada para um
objetivo do receptor. (Shannon e Weaver,1949, p. 3, citado em McGarry,
1999, p. 3)
Na viso de Shannon, a informao no depende de um suporte material, mas de um
emissor, um receptor e um canal, podendo ser facilmente quantificada. Esta definio de
informao, base da Teoria da Informao, foi fundamental na construo dos primeiros
computadores eletrnicos, e ainda desempenha um papel importante no estudo da informao
em diversos contextos.
Numa abordagem pragmtica, Buckland (1991b) identifica trs principais usos do
termo informao:
Como processo - o ato de informar ou a comunicao do conhecimento ou
notcias sobre um fato ou ocorrncia;
8
Como conhecimento - o que percebido pela informao enquanto processo, o
conhecimento comunicado. Sua principal caracterstica a intangibilidade;
Como coisa - aquilo que visto como informativo: objetos, documentos, textos,
dados ou eventos. A sua principal caracterstica a sua tangibilidade, sua
materialidade.
Nos dois primeiros usos a informao para ser comunicada precisa estar expressa,
descrita ou representada em algum modo fsico, em uma forma tangvel, que seria a
informao como coisa. Buckland define a informao como coisa em termos de potencial
para o processo de informar, e defende o papel fundamental desta definio em sistema de
recuperao de informao por este ser o nico sentido com o qual tais sistemas podem lidar
diretamente.
Hayes (1986), associando dados e informao, apresenta a seguinte definio:
Informao uma propriedade dos dados resultante de ou produzida por
um processo realizado sobre os dados. O processo pode ser simplesmente a
transmisso de dados (em cujo caso so aplicveis a definio e medida
utilizadas na teoria da comunicao); pode ser a seleo de dados; pode
ser a organizao de dados; pode ser a anlise de dados
Ruyer, (1972, p. 3) apresenta a seguinte definio:
A palavra informao, em seu sentido usual, parece comportar,
necessariamente, um elemento de conscincia e de sentido. [...] A
informao, no sentido habitual do termo, a transmisso a um ser
consciente de uma significao, de uma noo, por meio de uma mensagem
com base em um suporte espao-temporal: imprensa, mensagem telefnica,
onda sonora, etc.
Robredo (2003, cap. 1) apresenta e avalia diversos conceitos de informao. Inerente a
quase todas as definies de informao analisadas no contexto da Cincia da Informao est
evidenciado o seu carter semntico.
9
2.2 A Cincia da Computao e sua relao com a Cincia da Informao
Pode-se apontar a Segunda Guerra Mundial como o marco inicial da Cincia da
Computao, quando efetivamente se construram os primeiros computadores digitais.
Diferentemente da Cincia da Informao, raro encontrar na literatura uma enunciao que
defina o seu corpo terico.
Denning et al (1989, p. 12) definem Cincia da Computao como:
[] o estudo sistemtico de processos algortmicos que descrevem e
transferem informao: sua teoria, anlise, projeto, eficincia,
implementao e aplicao. A questo fundamental de toda a computao
: O que pode ser (eficientemente) automatizado? .
De acordo com essa definio, a Cincia da Computao trata apenas dos processos
que podem ser executados atravs de um conjunto seqencial de instrues: os algoritmos.
Na introduo do livro intitulado Histria da Computao teoria e tecnologia,
Fonseca Filho (1999, p. 13) define a Cincia da Computao como:
[...] um corpo de conhecimento formado por uma infra-estrutura
conceitual e um edifcio tecnolgico onde se materializam o hardware e o
software. A primeira fundamenta a segunda e a precedeu.
De fato, a histria da computao formada por uma sucesso de personagens e suas
idias, direta ou indiretamente materializadas em programas (software) ou dispositivos
(hardware). Essa histria pode ser contada a partir de diversos referenciais, desde a criao do
conceito abstrato de nmero at a criao dos primeiros computadores totalmente eletrnicos
no incio do sculo XX.
Na dcada de 50, vrios cientistas, engenheiros e bibliotecrios se empenharam na
busca de solues para os problemas enfrentados por Otlet no incio do sculo e atualizados
por Bush aps a Segunda Guerra. Os primeiros resultados significativos no tratamento
computacional da informao surgiram com os experimentos de Hans Peter Luhn na
indexao automtica e na elaborao automtica de resumos. Engenheiro pesquisador da
IBM, Luhn foi durante vrios anos o criador de inmeros projetos que visavam modificar
radicalmente mtodos tradicionais de armazenamento, tratamento e recuperao de
10
informao. Em 1961 Luhn j acumulava cerca de 80 patentes nos Estados Unidos (Schultz,
1968).
Em 1951, Calvin Mooers criou o termo Information Retrieval (Recuperao de
Informao) e definiu os problemas a serem abordados por esta nova disciplina.
A Recuperao de Informao trata dos aspectos intelectuais da descrio
da informao e sua especificao para busca, e tambm de qualquer
sistema, tcnicas ou mquinas que so empregadas para realizar esta
operao. (Mooers, 1951)
A Recuperao de Informao se firmou como uma rea de pesquisa autnoma no seio
da Cincia da Informao, com um acelerado desenvolvimento. Para Saracevic (1999), a
Recuperao de Informao pode ser considerada a vertente tecnolgica da Cincia da
Informao e resultado da relao desta com a Cincia da Computao.
O termo recuperao de informao atribudo a sistemas computacionais ainda
hoje bastante questionado, sendo que muitos autores preferem o termo recuperao de
documento (document retrieval) ou recuperao de textos (text retrieval). De fato, os
sistemas no recuperam informao, mas sim documentos ou referncias cujo contedo
poder ser relevante para a necessidade de informao do usurio. Neste trabalho ser
utilizada a designao original recuperao de informao, ficando subentendido que se
trata de uma informao potencial, uma probabilidade de informao contida nos
documentos ou textos recuperados pelo sistema, e que s vai se consubstanciar a partir do
estmulo externo-documento, se tambm houver uma identificao (em vrios nveis) da
linguagem desse documento, e uma alterao, uma reordenao mental do receptor-usurio
(Braga, 1995, p. 86).
A dcada de 60 foi um perodo bastante frtil de novas idias relacionadas
Recuperao de Informao. Maron e Kuhns (1960) lanam os princpios bsicos do modelo
probabilstico para a recuperao de informao, que mais de quinze anos depois seria
formalmente definido por Robertson e Jones (1976). Em meados dos anos 60 inicia-se uma
longa srie de experimentos que constitui um marco na Recuperao de Informao: o projeto
SMART. Resultado da vida de pesquisa de Gerard Salton, este projeto produziu em mais de
duas dcadas, alm de inmeros artigos cientficos, um modelo de recuperao de informao,
11
a criao e o aprimoramento de diversas tcnicas computacionais e o sistema SMART
(Salton, 1971).
Os primeiros sistemas de recuperao de informao baseavam-se na contagem de
freqncia das palavras do texto e na eliminao de palavras reconhecidamente de pouca
relevncia. Nos trabalhos de Luhn e Salton observa-se inicialmente uma crena de que os
mtodos puramente estatsticos seriam suficientes para tratar os problemas relacionados
recuperao de informao. Porm, no transcorrer de suas pesquisas, percebe-se uma busca
por mtodos de anlise semntica mais sofisticada. Desde os seus primeiros trabalhos, Salton
se mostra interessado pela utilizao de processos de tratamento da linguagem natural na
recuperao de informao. Em livro de 1983, Salton e McGill apresentam em um captulo
intitulado Future directions in Information Retrieval a aplicao do processamento da
linguagem natural e da lgica fuzzy na recuperao de informao, apontando a direo de
futuras pesquisas para a Inteligncia Artificial.
Embora a utilizao de tcnicas da Inteligncia Artificial tenha surgido em
conseqncia de uma natural evoluo dos modelos matemticos na busca de um
aprofundamento semntico no tratamento textual, as pesquisas utilizando modelos estatsticos
continuaram gerando novos modelos e aperfeioando antigas idias. o caso do modelo
booleano estendido e de diversos outros modelos que foram atualizados tendo em vista a
premncia de mtodos de recuperao para a Web.
A aproximao da Cincia da Informao com a Inteligncia Artificial deu-se
inicialmente atravs da automao de alguns processos documentrios como a indexao e a
elaborao de resumos. atravs do Processamento da Linguagem Natural que esta
aproximao se opera, tendo como objetivo a representao da semntica do texto, como ser
descrito no Captulo 6.
Alm do Processamento da Linguagem Natural, outras reas da Inteligncia Artificial
so empregadas na soluo dos problemas da recuperao de informao. o caso dos
sistemas especialistas, das redes neurais e dos algoritmos genticos, apresentados
detalhadamente no Captulo 5. Na Cincia da Computao a pesquisa em redes neurais est
inserida na vertente conexionista da Inteligncia Artificial, que visa a modelagem da
inteligncia humana atravs da simulao dos componentes do crebro. As redes neurais
introduzem nos sistemas de recuperao a capacidade de se adaptarem ao meio ambiente,
isto , s buscas dos usurios. J os algoritmos genticos implementam uma representao dos
12
mecanismos da evoluo natural e dos processos genticos da reproduo humana. Os
sistemas de recuperao baseados nos algoritmos genticos possuem a capacidade de
evolurem, alterando progressivamente as representaes (cdigo gentico) dos documentos.
Estes potenciais modelos de recuperao podem ser vistos como possveis solues para a
urgncia de mtodos que consigam no s lidar com a quantidade de informao, mas
tambm que possibilitem uma melhor qualidade da informao recuperada em relao
necessidade de informao especficas e individuais.
A aplicao de tcnicas tpicas da Inteligncia Artificial na recuperao de informao
geralmente se d atravs de pesquisadores ligados Cincia da Computao, que se
aventuram na Cincia da Informao com o objetivo de verificar a aplicabilidade de tais
tcnicas em outros campos. Aps o desenvolvimento de pequenos prottipos e de alguns
resultados prticos, retornam s pesquisas em sua cincia de origem, sem consolidar avanos
significativos na Recuperao de Informao. Essa natural divergncia de interesses nas
pesquisas pelo menos parcialmente rompida com o surgimento da Internet e da Web. A Web
promoveu um rpido direcionamento nos esforos de pesquisa dos mais variados campos
cientficos para os problemas relacionados recuperao de informao. Se muitas vezes a
obra de Paul Otlet criticada por seu centralismo autoritrio e seu monumentalismo, o que
vemos na Web so problemas gerados por uma exagerada democracia informacional em
uma dimenso que supera o monumental.

13
3
3

A Recuperao de Informao

No contexto da Cincia da Informao, o termo recuperao de informao
significa, para uns, a operao pela qual se seleciona documentos, a partir do acervo, em
funo da demanda do usurio. Para outros, recuperao de informao consiste no
fornecimento, a partir de uma demanda definida pelo usurio, dos elementos de informao
documentria correspondentes. O termo pode ainda ser empregado para designar a operao
que fornece uma resposta mais ou menos elaborada a uma demanda, e esta resposta
convertida num produto cujo formato acordado com o usurio (bibliografia, nota de sntese,
etc.). H ainda autores que conceituam a recuperao de informao de forma muito mais
ampla, ao subordinar mesma o tratamento da informao (catalogao, indexao,
classificao). Como apresentado no captulo anterior, o termo Recuperao de Informao
(Information Retireval) designa tambm uma rea de pesquisa fundada por Calvin Mooers em
1951.
Este trabalho optou por uma abordagem que enfatiza os processos de busca de
informao, excluindo, portanto, o tratamento documental que, embora complementar,
mobiliza uma outra bibliografia.
O processo de recuperao de informao consiste em identificar, no conjunto de
documentos (corpus) de um sistema, quais atendem necessidade de informao do usurio.
O usurio de um sistema de recuperao de informao est, portanto, interessado em
recuperar informao sobre um determinado assunto e no em recuperar dados que
14
satisfazem sua expresso de busca, nem tampouco documentos, embora seja nestes que a
informao estar registrada. Essa caracterstica o que diferencia os sistemas de recuperao
de informao dos Sistemas Gerenciadores de Bancos de Dados (ou simplesmente bancos de
dados), estudados e implementados desde o nascimento da Cincia da Computao.
Os sistemas de banco de dados tm por objetivo a recuperao de todos os objetos ou
itens que satisfazem precisamente s condies formuladas atravs de uma expresso de
busca. Em um sistema de recuperao de informao essa preciso no to estrita. A
principal razo para esta diferena est na natureza dos objetos tratados por estes dois tipos de
sistema. Os sistemas de recuperao de informao lidam com objetos lingsticos (textos) e
herdam toda a problemtica inerente ao tratamento da linguagem natural. J um sistema de
banco de dados organiza itens de informao (dados), que tm uma estrutura e uma
semntica bem definidas. Os sistemas de informao podem se aproximar do padro que
caracteriza os bancos de dados na medida em que sejam submetidos a rgidos controles, tais
como vocabulrio controlado, listas de autoridades, etc.
Os sistemas de recuperao de informao devem representar o contedo dos
documentos do corpus e apresent-los ao usurio de uma maneira que lhe permita uma rpida
seleo dos itens que satisfazem total ou parcialmente sua necessidade de informao,
formalizada atravs da uma expresso de busca. Uma representao simplificada do processo
de recuperao de informao apresentada na Figura 1.

Figura 1 Representao do processo de recuperao de informao
A fim de se tentar esboar um esquema do processo de recuperao de informao,
ser utilizado o conceito de informao como coisa definido por Buckland (1991b), para
quem os itens que formam os sistemas de informao seriam registros relacionados a coisas
ou objetos. Para o referido autor, o termo informao utilizado na maioria das vezes
vinculado a um objeto que contm informao: um documento. Assim, o termo informao
poderia tambm designar algo atribudo a um objeto, tal como dado e documento que se
referem informao, porque deles se espera que sejam informativos. Por sua vez o termo
documento, entendido como coisa informativa, incluiria, por exemplo, objetos, artefatos,
imagens e sons.
15
Suzanne Briet (1951, p. 7, citado por Buckland,1997, p. 806) define documento como
qualquer signo fsico ou simblico, preservado ou registrado, com a inteno de
representar, reconstruir ou demonstrar um fenmeno fsico ou abstrato. Esta definio
generaliza ainda mais o conceito de documento a qualquer tipo de suporte, seja ele material
ou digital.
No ambiente digital que vem se configurando nas ltimas dcadas, os acervos de
objetos digitais se multiplicam tanto no que se refere sua tipologia quanto sua
complexidade. Nesse novo cenrio, textos, imagens, sons, vdeos, pginas Web e diversos
outros objetos digitais requerem diferentes tipos de tratamento e representao para uma
recuperao de informao eficaz (Burke, 1999). Particularmente no contexto da Web, uma
das principais mudanas a desterritorializao do documento e a sua desvinculao de uma
forma fsica tradicional como o papel, possibilitando uma integrao entre diferentes suportes
(texto, imagem, som) e uma ruptura na linearidade do acesso aos documentos atravs do
imenso hipertexto da Web, cujas caractersticas, no que se refere recuperao de
informao, so detalhadas no Captulo 7.
Com as mudanas do conceito de documento advindas dos meios digitais, o tratamento
da informao envolve elementos relacionados a diversas disciplinas, ampliando o campo de
pesquisa da Cincia da Informao e reforando ainda mais sua caracterstica interdisciplinar,
principalmente no seu relacionamento com a Cincia da Computao, mais notadamente no
contexto da Web.
O processo de representao busca descrever ou identificar cada documento do
corpus atravs de seu contedo. Tal representao geralmente realizada atravs do processo
de indexao. Durante a indexao so extrados conceitos do documento atravs da anlise
de seu contedo e traduzidos em termos de uma linguagem de indexao, tais como
cabealhos de assunto, tesauros, etc. Esta representao identifica o documento e define seus
pontos de acesso para a busca e pode tambm ser utilizada como seu substituto.
A analise de um documento pode envolver uma interpretao de seu contedo com a
finalidade de agregar assuntos que no esto diretamente explicitados em sua superfcie
textual, mas que podem ser facilmente abstrados por um indexador humano. A indexao de
um documento pode tambm ser efetuada tendo em vista a sua recuperao. Nesse caso a
anlise do documento feita com a preocupao de tornar o seu contedo visvel para os
usurios de um sistema de informao.
16
A automao do processo de indexao s possvel atravs de uma simplificao na
qual se considera que os assuntos de um documento podem ser derivados de sua estrutura
textual atravs de mtodos algortmicos. A principal vantagem da automao est no seu
baixo custo, considerando o crescente barateamento dos computadores e dos softwares.
Os mtodos automticos de indexao geralmente utilizam filtros para eliminar
palavras de pouca significao (stop words), alm de normalizar os termos reduzindo-os a
seus radicais, processo conhecido como stemming. Essa forma de indexao seleciona formas
significantes (termos ou frases) dos documentos, desconsiderando os significados que os
mesmos podem possuir de acordo com os contextos. Embora esta forma de indexao seja
amplamente utilizada, suas falhas e limitaes se evidenciam pela simplificao da dimenso
semntica da linguagem.
Com o aumento da capacidade de armazenamento dos computadores, muitos sistemas
conseguem manter disponveis os textos dos documentos. Nesses sistemas, chamados
sistemas de texto completo ou texto integral, no h de fato uma representao ou poder-se-ia
considerar que tal representao feita pelo conjunto formado por todas as palavras de seu
texto. Com um aumento da quantidade de documentos, mesmo os computadores modernos
podem no comportar o armazenamento dos textos dos documentos, tendo que limitar a
representao a um conjunto limitado de termos.
A necessidade de informao do usurio representada atravs de sua expresso de
busca, que pode ser especificada em linguagem natural ou atravs de uma linguagem
artificial, e deve resultar na recuperao de um nmero de documentos que possibilite a
verificao de cada um deles a fim de selecionar os que so teis. A principal dificuldade do
usurio est em predizer, por meio de uma expresso de busca, as palavras ou expresses que
foram usadas para representar os documentos e que satisfaro sua necessidade. As estratgias
que podem ou devem ser utilizadas na formulao de buscas so tema de diversas pesquisas
da Cincia da Informao. Com o aumento da quantidade de documentos disponibilizados nos
sistemas de informao este processo de predio, que nunca to preciso como nos sistemas
de banco de dados, dificultado pelo nmero elevado de documentos resultantes das buscas.
Assim, no suficiente predizer um ou mais termos utilizados para indexar os documentos
desejados, necessrio tambm evitar a recuperao de documentos no relevantes,
minimizando o esforo em verificar a relevncia de tais documentos.
17
O usurio de um sistema de informao tem que traduzir a sua necessidade de
informao em uma expresso de busca atravs de uma linguagem fornecida pelo sistema.
Geralmente a expresso de busca composta de um conjunto de palavras que tentam exprimir
a semntica da necessidade de informao do usurio. A subjetividade do processo de
recuperao de informao faz com que muita da responsabilidade de sua eficcia seja
transferida para o usurio.
A partir de meados da dcada de 70 iniciou-se um debate sobre um novo paradigma
terico denominado abordagem centrada no usurio (Ferreira, 95). Segundo essa
perspectiva, a recuperao de informao um processo de produo de sentido por parte do
usurio, o qual utiliza a informao para construir conhecimento. Para Morris (1994), a
informao parcialmente construda pelo usurio durante esse processo de produo de
sentido, e s existe fora dele de maneira incompleta. Portanto, segundo essa perspectiva os
sistemas de informao deveriam ser modelados conforme a natureza das necessidades de
informao do usurio, levando-se em conta os seus padres de comportamento na busca da
informao.
Embora exista um consenso sobre a importncia de se estabelecer o usurio como o
centro do processo de recuperao de informao, a abordagem centrada no usurio carece de
definies e pressupostos claros para identificar variveis e gerar questes de pesquisa, alm
de metodologias especficas e rigor cientfico.
No centro do processo de recuperao de informao est a funo de busca, que
compara as representaes dos documentos com a expresso de busca dos usurios e recupera
os itens que supostamente fornecem a informao que o usurio procura. Porm, o fato de um
termo utilizado na expresso de busca aparecer na representao de um documento no
significa que o documento seja relevante para a necessidade do usurio. Em primeiro lugar, a
busca provavelmente contm mais do que um termo e, portanto, a recuperao de um
documento deve considerar a totalidade dos termos de busca. Em segundo lugar, o termo
presente na representao de um documento pode estar em um contexto que no apropriado
necessidade do usurio. Por ltimo, um documento, mesmo que fortemente relacionado com
uma busca, pode no ser relevante para o usurio, simplesmente por ser muito antigo ou por j
ter sido recuperado anteriormente pelo mesmo.
A eficincia de um sistema de recuperao de informao est diretamente ligada ao
modelo que o mesmo utiliza. Um modelo, por sua vez, influencia diretamente no modo de
18
operao do sistema. Apesar de alguns desses modelos terem sido criados nos anos 60 e 70
(modelos quantitativos, Captulo 4) e aperfeioados nos anos 80, as suas principais idias
ainda esto presentes na maioria dos sistemas de recuperao atuais e nos mecanismos de
busca da Web. Alguns outros modelos, chamados aqui de modelos dinmicos (Captulo 5),
resumem propostas mais recentes que utilizam mtodos derivados da Inteligncia Artificial e
representam alternativas promissoras a serem estudadas e desenvolvidas futuramente.
19
4
4

Modelos quantitativos

A grande maioria dos modelos de recuperao de informao de natureza
quantitativa, baseados em disciplinas como a lgica, a estatstica e a teoria dos conjuntos. Em
um estudo sobre os modelos de recuperao de informao, Robertson (1977) justifica esse
predomnio pelo fato de que a determinao de um modelo matemtico geralmente pressupe
uma cuidadosa anlise formal do problema e especificaes de hipteses, alm de uma
formulao explcita da forma como o modelo depende das hipteses.
Nos modelos de recuperao de informao apresentados neste captulo os
documentos so representados por um conjunto de termos de indexao. Um termo de
indexao geralmente uma palavra que representa um conceito ou significado presente no
documento. Porm, os termos de indexao associados a um documento no so igualmente
teis para descrever o seu contedo. Existem termos mais representativos do assunto principal
do documento e outros termos que representam assuntos perifricos temtica do mesmo.
Decidir a importncia de um termo para a descrio do contedo de um documento no uma
tarefa simples, mesmo para pessoas experientes. Alguns sistemas computacionais utilizam
propriedades que facilitam a mensurao do potencial representativo de um termo de
indexao. Por exemplo, em um corpus com milhares de documentos uma palavra que
aparece em todos os documentos no seria um bom termo de indexao. Por outro lado, uma
palavra que aparece em apenas trs documentos possivelmente seria de grande utilidade como
termo de indexao, pois reduziria consideravelmente o nmero de documentos que poderiam
20
ser de interesse para uma determinada necessidade de informao do usurio. Portanto,
diferentes termos de indexao possuem graus de relevncia distintos, de acordo com os
documentos e os objetivos do sistema de informao.
4.1 Modelo booleano
A Lgica como cincia comeou a se desenvolver com o filsofo Aristteles. Atravs
da leitura dos dilogos de Plato, Aristteles descobriu que existe uma lei que rege o
pensamento para que se atinja o conhecimento de algo, a verdade, sem cair em contradio.
Para Aristteles, a lgica seria um instrumento para a cincia e a filosofia. A lgica
aristotlica estava a servio de uma explicao da realidade e baseava-se na distino entre
verdadeiro e falso.
Investigando os tipos de raciocnio, Aristteles construiu uma teoria cujo ncleo a
caracterizao e anlise dos silogismos. Um exemplo tpico de silogismo :
Todo homem mortal
Scrates homem
Logo, Scrates mortal

Uma caracterstica importante da silogstica aristotlica a utilizao de smbolos que
representam expresses substantivas e possibilitam estabelecer um certo rigor nas
demonstraes matemticas.
Apesar das limitaes para representar todos os tipos de inferncias, o domnio da
lgica silogstica prevaleceu at o sculo XIX, quando George Boole concebeu um sistema de
smbolos e regras aplicvel desde nmeros at enunciados. Com esse sistema possvel
codificar proposies em linguagem simblica e manipul-las quase da mesma maneira como
se faz com os nmeros. Com o trabalho de Boole, a Lgica afasta-se da Filosofia e aproxima-
se da Matemtica.
A lgebra booleana um sistema binrio no qual existem somente dois valores
possveis para qualquer smbolo algbrico: 1 ou 0, verdadeiro ou falso. Essa teoria revelou-se
ideal para o funcionamento de circuitos eletrnicos e foi fundamental na idealizao da
arquitetura dos computadores modernos.
21
4.1.1 Operadores booleanos
No modelo booleano um documento representado por um conjunto de termos de
indexao que podem ser definidos de forma intelectual (manual) por profissionais
especializados ou automaticamente, atravs da utilizao de algum tipo de algoritmo
computacional. As buscas so formuladas atravs de uma expresso booleana composta por
termos ligados atravs dos operadores lgicos AND, OR e NOT (E, OU e NO)
1
, e
apresentam como resultado os documentos cuja representao satisfazem s restries lgicas
da expresso de busca.
Uma expresso conjuntiva de enunciado t
1
AND t
2
recuperar documentos indexados
por ambos os termos (t
1
e t
2
). Esta operao equivale interseo do conjunto dos
documentos indexados pelo termo t
1
com o conjunto dos documentos indexados pelo termo t
2
,
representado pela rea cinza na Figura 2

Figura 2 Representao do resultado de uma expresso booleana conjuntiva ( AND )
Uma expresso disjuntiva t
1
OR t
2
recuperar o conjunto dos documentos indexados
pelo termo t
1
ou pelo termo t
2
. Essa operao equivale unio entre o conjunto dos
documentos indexados pelo termo t
1
e o conjunto dos documentos indexados pelo termo t
2
,
como ilustrado na Figura 3.

Figura 3 Resultado de uma busca booleana disjuntiva ( OR )

1
Ser utilizada a terminologia em ingls em funo de sua ampla disseminao.
22
Uma expresso que utiliza apenas um termo t
1
ter como resultado o conjunto de
documentos indexados por t
1
. A expresso NOT t
1
recuperar os documentos que no so
indexados pelo termo t
1
, representados pela rea cinza da Figura 4

Figura 4 Resultado de uma busca negativa ( NOT )
As expresses t
1
NOT t
2
ou t
1
AND NOT t
2
tero o mesmo resultado: o conjunto dos
documentos indexados por t
1
e que no so indexados por t
2
(Figura 5). Neste caso o operador
NOT pode ser visto como um operador da diferena entre conjuntos. Assim, a rea cinza da
Figura 5 representa o conjunto dos documentos indexados pelos termo t
1
menos (subtrado de)
o conjunto dos documentos indexados por t
2
.

Figura 5 Resultado de uma busca booleana com o operador NOT
Termos e operadores booleanos podem ser combinados para especificar buscas mais
detalhadas ou restritivas. Como a ordem de execuo das operaes lgicas de uma expresso
influencia no resultado da busca, muitas vezes necessrio explicitar essa ordem delimitando
partes da expresso atravs de parnteses. Na ausncia de parnteses, a expresso booleana
ser interpretada de acordo com o padro utilizado pelo sistema, que pode ser a execuo da
expresso da esquerda para a direita ou em uma ordem pr-estabelecida, geralmente NOT -
AND - OR.
23

(a) (Recuperao AND Informao) OR WEB (b) Recuperao AND (Informao OR WEB)
Figura 6 Resultado de uma expresso de busca booleana utilizando parnteses
As reas cinzas da Figura 6 representam o resultado de duas expresses de busca que
utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execuo. Na
primeira expresso (a) inicialmente executada a operao AND entre os termos
Recuperao e Informao. Com o resultado obtido executada a operao OR com o
termo WEB. A segunda expresso (b) executa a operao OR entre os termos Informao
e WEB e com o resultado efetuada a operao AND com o termo Recuperao.
Expresses complexas exigem um conhecimento profundo da lgica booleana e
evidenciam a importncia da elaborao de uma estratgia de busca adequada para garantir a
qualidade da informao recuperada. O conhecimento da lgica booleana importante
tambm para entender e avaliar os resultados obtidos em uma busca.
4.1.2 Operadores de proximidade
At a dcada de 60 os sistemas de recuperao de informao utilizavam apenas
pequenos resumos ou algumas palavras-chave para representar o contedo dos documentos.
Os recursos computacionais existentes no permitiam o armazenamento de todo o texto dos
documentos.
Durante os anos 70, a diminuio gradual do custo e o aumento na capacidade dos
computadores permitiram aos sistemas armazenar o texto completo dos documentos e no
apenas sua representao. Nesse perodo surgiram tambm os primeiros editores de texto, o
que permitiu um aumento na disponibilidade de documentos digitais (Lesk, 1995).
Em um sistema de recuperao de texto completo (full-text) cada documento
representado pelo conjunto de todas as palavras de seu texto. Tais sistemas possuem recursos
que permitem recuperar documentos atravs da avaliao da proximidade entre palavras do
24
texto do documento como um todo ou em unidades textuais especficas como sentena ou
pargrafo. Durante o processo de busca o usurio tenta predizer palavras ou frases que podem
aparecer no texto dos documentos e que so relevantes em relao sua necessidade de
informao. Os operadores de proximidade permitem especificar condies relacionadas
distncia e posio dos termos no texto.
O formato genrico de um operador de proximidade pode ser representado como:
t
1
n unidades de t
2

A distncia n um nmero inteiro e unidades podem ser palavras, sentenas ou
pargrafos.
No sistema STAIRS, desenvolvido pela IBM, por exemplo, a expresso de busca t
1

WITH t
2
permite recuperar documentos cujos termos t
1
e t
2
apaream no mesmo pargrafo. A
expresso t
1
SAME t
2
recuperar documentos onde o termo t
1
e o termo t
2
apaream em uma
mesma sentena.
Um outro operador de proximidade bastante comum nos sistemas de recuperao de
informao e nos mecanismos de busca da Web o operador ADJ. Este operador permite
pesquisar duas palavras adjacentes no texto de um documento, na ordem especificada na
expresso de busca. Por exemplo, a expresso pronto ADJ socorro ter como resultado os
documentos que tiverem a palavra pronto seguida da palavra socorro, isto , recuperar
documentos que contm a expresso pronto socorro. Em muitos sistemas possvel utilizar
diretamente um termo composto delimitando as suas palavras com aspas. Assim, a expresso
de busca pronto ADJ socorro equivale expresso pronto socorro. Uma variao do
operador ADJ permite selecionar documentos que possuem em seu texto duas palavras
especficas em uma mesma frase, separadas por um nmero mximo de palavras e na ordem
especificada na expresso de busca. Por exemplo, a expresso poltica ADJ5 sade ter como
resultado um conjunto de documentos que possuem em uma mesma sentena as palavras
poltica e sade, nessa ordem, separadas por no mximo 5 palavras.
Outro operador bastante comum o operador NEAR. No mecanismo de busca Lycos
(www.lycos.com), por exemplo, a expresso de busca poltica NEAR/10 social recuperar
documentos nos quais a palavra poltica aparea a no mximo 10 palavras de distncia da
palavra social, no importando a ordem em que elas se encontram.
25
Os operadores booleanos podem ser combinados com os operadores de proximidade a
fim de formar expresses de busca mais restritivas ou mais genricas. Por exemplo, a
expresso Recuperao de ADJ (informao OR documentos) recuperar o conjunto dos
documentos que contenham o termo Recuperao de informao ou o termo Recuperao
de documentos.
Blair (1990, p.47-53) apresenta um resumo crtico sobre os sistemas de recuperao de
texto completo. Segundo o autor, a riqueza e flexibilidade da linguagem natural dificultam
sensivelmente a predio de palavras ou frases que aparecem nos textos de documentos
relevantes e ao mesmo tempo no ocorrem em documentos no relevantes.
Mesmo utilizando operadores de proximidade, o resultado de uma busca booleana ser
um conjunto de documentos que respondem verdadeiramente expresso de busca e
presumivelmente sero considerados relevantes pelo usurio. Apesar de os operadores de
proximidade agregarem novos recursos aos sistemas de texto completo, tais operadores no
alteram substancialmente as vantagens e limitaes do modelo booleano.
O modelo booleano, apesar de bem formalizado, possui limitaes que diminui sua
atratividade. Algumas dessas limitaes so:
Sem um treinamento apropriado, o usurio leigo ser capaz de formular somente
buscas simples. Para buscas que exijam expresses mais complexas necessrio
um conhecimento slido da lgica booleana.
Existe pouco controle sobre a quantidade de documentos resultante de uma busca.
O usurio incapaz de predizer quantos registros satisfaro a restrio lgica de
uma determinada expresso booleana, sendo necessrias sucessivas reformulaes
antes que seja recuperado um volume aceitvel de documentos;
O resultado de uma busca booleana se caracteriza por uma simples partio do
corpus em dois subconjuntos: os documentos que atendem expresso de busca e
aqueles que no atendem. Presume-se que todos os documentos recuperados so
de igual utilidade para o usurio. No h nenhum mecanismo pelo qual os
documentos possam ser ordenados;
No existe uma forma de atribuir importncia relativa aos diferentes termos da
expresso booleana. Assume-se implicitamente que todos os termos tm o mesmo
peso.
26
Um erro freqente na formulao de expresses booleanas a interpretao
equivocada do significado dos operados AND e OR. Na linguagem coloquial, quando se diz
gatos e cachorros, intuitivamente imagina-se uma unio entre o conjunto dos gatos e o
conjunto dos cachorros. Em um sistema de recuperao de informao a expresso t
1
AND
t
2
resultar na interseo entre o conjunto dos documentos indexados pelo termo t
1
e o
conjunto dos documentos indexados por t
2
. Na linguagem cotidiana, quando se diz caf ou
ch expressa-se uma escolha ou seleo cujo resultado ser apenas um dos elementos. Em
um sistema de recuperao de informao, a expresso t
1
OR t
2
resultar uma unio do
conjunto de documentos indexados por t
1
com o conjunto de documentos indexados por t
2

(Smith, 1993).
Apesar de suas limitaes, o modelo booleano est presente em quase todos os
sistemas de recuperao de informao, seja como a principal maneira de formular as
expresses de busca, seja como um recurso alternativo. Uma razo para isso que para
usurios experientes este modelo oferece um certo controle sobre o sistema. Se o conjunto de
documentos resultante muito grande ou muito pequeno, fcil saber quais os operadores
necessrios para diminuir ou aumentar a quantidade de documentos at atingir um resultado
satisfatrio.
Uma das maiores desvantagens do modelo booleano a sua inabilidade em ordenar os
documentos resultantes de uma busca. Por esta razo o modelo no seria adequado aos
modernos sistemas de texto integral, como os mecanismos de busca da Web, onde o
ordenamento dos documentos de extrema importncia face ao volume de documentos que
geralmente recuperado. Apesar disso, muitos desses sistemas se desenvolveram utilizando o
modelo booleano como ponto de partida para a implementao de novos recursos de
recuperao. Neste sentido o modelo booleano pode ser considerado o modelo mais utilizado
no s nos sistema de recuperao de informao e nos mecanismos de busca da Web, mas
tambm nos sistemas de banco de dados, onde o seu poder se expressa atravs da linguagem
SQL.
4.2 Modelo vetorial
O modelo vetorial prope um ambiente no qual possvel obter documentos que
respondem parcialmente a uma expresso de busca. Isto feito atravs da associao de pesos
tanto aos termos de indexao como aos termos da expresso de busca. Esses pesos so
27
utilizados para calcular o grau de similaridade entre a expresso de busca formulada pelo
usurio e cada um dos documentos do corpus. Como resultado, obtm-se um conjunto de
documentos ordenado pelo grau de similaridade de cada documento em relao expresso
de busca.
4.2.1 Representao vetorial
No modelo vetorial um documento representado por um vetor onde cada elemento
representa o peso, ou a relevncia, do respectivo termo de indexao para o documento. Cada
vetor descreve a posio do documento em um espao multidimensional, onde cada termo de
indexao representa uma dimenso ou eixo. Cada elemento do vetor (peso) normalizado de
forma a assumir valores entre zero e um. Os pesos mais prximos de um (1) indicam termos
com maior importncia para a descrio do documento. A Figura 7 apresenta a representao
grfica de um documento DOC
1
com termos de indexao t
1
e t
3
, com pesos 0.3 e 0.5,
respectivamente.
t
1
t
3

DOC
1
0.3 0.5

Figura 7 Representao vetorial de um documento com dois termos de indexao
A Figura 8 representa graficamente um documento DOC
2
= (0.5, 0.4, 0.3) em um
espao tridimensional.

t
1
t
2
t
3

DOC
2
0.5 0.4 0.3

Figura 8 Representao vetorial de um documento com trs termos de indexao
28
A Figura 9 mostra os dois documentos DOC
1
e DOC
2
representados em um mesmo
espao vetorial. Os nmeros positivos representam os pesos de seus respectivos termos.
Termos que no esto presentes em um determinado documento possuem peso igual a zero.
t
1
t
2
t
3

DOC
1
0.3 0.0 0.5
DOC
2
0.5 0.4 0.3

Figura 9 Espao vetorial contendo dois documentos
Da mesma forma que os documentos, no modelo vetorial uma expresso de busca
tambm representada por um vetor numrico onde cada elemento representa a importncia
(peso) do respectivo termo na expresso de busca. A Figura 10 mostra a representao da
expresso de busca eBUSCA
1
=(0.2, 0.35, 0.1) juntamente com os documentos DOC
1
e DOC
2

em um espao vetorial formado pelos termos t
1
, t
2
e t
3
.
t
1
t
2
t
3

eBUSCA
1
0.2 0.35 0.1

t
1
t
2
t
3

DOC
1
0.3 0.0 0.5
DOC
2
0.5 0.4 0.3

Figura 10 Representao de uma expresso de busca em um espao vetorial
Para que fosse possvel apresentar visualmente um espao vetorial contendo
documentos e expresses de buscas, nos exemplos acima foram utilizados apenas trs termos
de indexao na representao dos documentos. Obviamente, um sistema real contm um
grande nmero de termos de indexao e documentos. Um corpus contendo um nmero
29
indefinido de documentos e termos de indexao pode ser representado atravs de uma matriz
onde cada linha representa um documento e cada coluna representa a associao de um
determinado termo aos diversos documentos. Um corpus contendo n documentos e i termos
de indexao pode ser representado da seguinte forma:
t
1
t
2
t
3
t
i

DOC
1
w
1,1
w
2,1
w
3,1
w
i,1

DOC
2
w
1,2
w
2,2
w
3,2
... w
i,2

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
DOC
n
w
1,n
w
2,n
w
3,n
... w
i,n

onde w
i,n
representa o peso do i-simo termo do n-simo documento.
4.2.2 Clculo da similaridade
A utilizao de uma mesma representao tanto para os documentos como para as
expresses de busca permite calcular o grau de similaridade entre dois documentos ou entre
uma expresso e cada um dos documentos do corpus. Em um espao vetorial contendo t
dimenses a similaridade ( sim ) entre dois vetores x e y calculada atravs do co-seno do
ngulo formado por estes vetores, utilizando a seguinte frmula:


= =
=

=
t
i
y i
t
i
x i
y i
t
i
x i
w w
w w
y x sim
1
2
,
1
2
,
,
1
,
) ( ) (
) (
) , (
onde w
i,x
o peso do i-simo elemento do vetor x e w
i,y
o peso do i-simo elemento do vetor
y.
O grau de similaridade entre o documento DOC
1
e o documento DOC
2
, representados
na Figura 9, calculado como:
73 0 ) , (
5 . 0 34 . 0
15 . 0 0 . 0 15 . 0
3 . 0 4 . 0 5 . 0 5 . 0 0 . 0 3 . 0
) 3 . 0 5 . 0 ( ) 4 . 0 0 . 0 ( ) 5 . 0 3 . 0 (
DOC DOC
2 2 2 2 2 2
2 1
. sim =

=
+ + + +
=
+ + + +

Portanto, o grau de similaridade entre os documentos DOC
1
e DOC
2
igual a 0.73 ou
73%.
Utilizando a mesma frmula, pode-se calcular a similaridade entre a expresso
eBUSCA
1
e cada um dos documentos DOC
1
e DOC
2
, representados na Figura 10:
sim(DOC
1
, eBUSCA
1
) = 0.45 (45%)
30
sim(DOC
2
, eBUSCA
1
) = 0.92 (92%)
Portanto, a expresso eBUSCA
1
possui um grau de similaridade de 45% com o
documento DOC
1
e de 92% com o documento DOC
2
.
Os valores da similaridade entre uma expresso de busca e cada um dos documentos
do corpus so utilizados no ordenamento dos documentos resultantes. Portanto, no modelo
vetorial o resultado de uma busca um conjunto de documentos ordenados pelo grau de
similaridade entre cada documento e a expresso de busca. Esse ordenamento permite
restringir o resultado a um nmero mximo de documentos desejados. possvel tambm
restringir a quantidade de documentos recuperados definindo um limite mnimo para o valor
da similaridade. Utilizando um limite de 0.5, por exemplo, uma expresso de busca obter
como resultado apenas os documentos cujo valor da similaridade for maior ou igual a 0.5
(50%).
Diferentemente do modelo booleano, o modelo vetorial utiliza pesos tanto para os
termos de indexao quanto para os termos da expresso de busca. Esta caracterstica permite
o clculo de um valor numrico que representa a relevncia de cada documento em relao
busca.
Uma caracterstica do modelo vetorial que os termos de indexao so
independentes, isto , no so considerados os relacionamentos existentes entre eles. Embora
alguns autores apontem essa caracterstica como uma desvantagem, segundo Baeza-Yates e
Ribeiro-Neto (1999, p. 30), no h evidncias conclusivas que apontem que tais dependncias
afetam significativamente o desempenho de um sistema de recuperao de informao. Uma
importante limitao do modelo vetorial no permitir a formulao de buscas booleanas, o
que restringe consideravelmente sua flexibilidade.
Um dos maiores mritos do modelo vetorial a definio de um dos componentes
essenciais de qualquer teoria cientfica: um modelo conceitual. Este modelo serviu como base
para o desenvolvimento de uma teoria que alimentou uma grande quantidade de pesquisas e
resultou no sistema SMART (Salton, 1971).
4.2.3 O sistema SMART
O projeto SMART (Sistem for the Manipulation and Retrieval of Text) teve incio em
1961 na Universidade de Harvard e mudou-se para a Universidade de Cornell aps 1965. O
31
sistema SMART o resultado da vida de pesquisa de Gerard Salton e teve um papel
significativo no desenvolvimento de toda a rea da Recuperao de Informao. O SMART
uma implementao do modelo vetorial, proposto pelo prprio Salton nos anos 60.
No sistema SMART cada documento representado por um vetor numrico. O valor
de cada elemento desse vetor representa a importncia do respectivo termo na descrio do
documento. Estes pesos podem ser atribudos manualmente, o que necessitaria de pessoal
especializado trabalhando durante certo tempo. No entanto, o sistema SMART fornece um
mtodo automtico para o clculo dos pesos no s dos vetores que representam os
documentos, mas tambm para os vetores das expresses de busca. A forma de calcular esses
pesos descrita por Salton e McGill (1983, p.204-207). Inicialmente define-se a freqncia de
um termo (term frequency - tf) como sendo o nmero de vezes que um determinado termo t
aparece no texto de um documento d.
d t d t
freq tf
, ,
=
Essa medida (tf) no faz distino entre termos que ocorrem em todos o documentos
do corpus e termos que ocorrem somente em alguns documentos. Sabe-se intuitivamente que
um termo que aparece em todos os documentos ter provavelmente pouca utilidade em
identificar a relevncia dos documentos. Portanto, para um clculo preciso do peso de um
determinado termo de indexao preciso uma estatstica global que caracterize o termo em
relao a todo o corpus. Esta medida, chamada inverse document frequency (idf), mostra
como o termo distribudo pelo corpus, e calculada da seguinte forma:
t
t
n
N
idf =
onde N o nmero de documentos no corpus e n
t
o nmero de documentos que contm o
termo t.
Quanto menor o nmero documentos que contm um determinado termo, maior o idf
desse termo. Se todos os documentos do corpus contiverem um determinado termo, o idf
desse termo ser igual a um (1).
Finalmente, o peso de um termo t em relao a um documento d ( w
t,d
) definido
atravs da multiplicao da medida tf pela medida idf. Essa nova medida conhecida como
tf*idf e possui a seguinte frmula:
32
t d t d t
idf tf w =
, ,

A medida tf*idf utilizada para atribuir peso a cada elemento dos vetores que
representam os documento do corpus. Os melhores termos de indexao (os que apresentaro
maior peso) so aqueles que ocorrem com uma grande freqncia em poucos documentos.
Assim como os documentos, uma expresso de busca tambm representada por um
vetor. Isso permite ao usurio atribuir a cada termo da expresso um nmero que representa a
importncia relativa do termo para a sua necessidade de informao. Porm, o que
aparentemente um recurso bastante til, por outro lado pode ser confuso para um usurio
inexperiente. Em Salton e Buckley (1988) so descritas algumas formas alternativas para
calcular automaticamente os pesos no s para os termos de indexao, mas tambm dos
termos de busca. O peso de cada termo t de uma expresso de busca eBUSCA ( w
t,eBUSCA
)
pode ser calculado atravs da seguinte frmula:
t
idf
tf
w
|
|
.
|

\
|
+ =
2
5 . 0
d t,
eBUSCA t,

Atravs da utilizao desta frmula os pesos dos termos utilizados na expresso de
busca sero calculados automaticamente, simplificando a tarefa de formular expresses de
buscas.
Antes de se atribuir pesos aos temos de indexao dos documentos necessrio definir
quais sero esses termos. O sistema SMART, desde a sua concepo, j incorporava algumas
ferramentas de anlise lingstica para a extrao automtica de termos de indexao a partir
de seu corpus. Os primeiros resultados mostraram que algumas tcnicas lingsticas, que
inicialmente se acreditava serem essenciais para um bom desempenho do sistema, no se
mostraram eficazes na prtica. Por esta razo o sistema SMART foi baseado em processos
lingsticos mais simples, que eram bem conhecidos na poca (Salton e Lesk, 1968; Salton,
1972 e 1973). O processo de indexao do sistema SMART feito atravs das seguintes
etapas:
1. Identificar e isolar cada palavra do texto do documento ou de sua representao
(Resumo, palavras-chave);
2. Eliminar palavras com grande freqncia e pouco valor semntico (stop-words)
tais como preposies, artigos, etc.;
33
3. Remover afixos (prefixos e sufixos) das palavras restantes, reduzindo-as ao seu
radical (processo conhecido como stemming);
4. Incorporar os radicais (termos) aos vetores dos documentos e atribuir-lhes um
peso, calculado atravs da medida tf*idf;
Aps esse processo, alguns termos podem apresentar pesos com valor muito abaixo da
mdia. Ao invs de simplesmente excluir esses termos, eles so agrupados a outros termos
formando termos compostos mais especficos.
No sistema SMART um termo composto formado pelos radicais de duas ou mais
palavras que no fazem parte da lista de stop words (stop list), seus componentes ocorrem na
mesma frase e pelo menos um desses componentes possui freqncia superior a um
determinado limite. Um mtodo mais complexo e preciso de se identificar termos compostos
considera a distncia (nmero de palavras) e a ocorrncia dos componentes do termo no texto.
Um termo composto representa de forma mais precisa o assunto tratado pelo documento e,
portanto, o peso associado a ele deve ser maior do que o peso mdio dos termos simples. O
processo de identificao de termos compostos pode ser resumido da seguinte forma:
1. Eliminar stop words do texto dos documentos e reduzir cada palavra restante ao
seu radical eliminando prefixos e sufixos;
2. Para cada par de radicais verificar a distncia entre seus componentes, que no
pode ultrapassar um determinado nmero de palavras. Pelo menos um componente
de cada termo composto deve ter uma freqncia relativamente alta.
3. Eliminar termos compostos que possuem termos idnticos;
4. O peso de um termo composto uma funo dos pesos de seus componentes, e
deve ser superior ao peso de cada componente tomado isoladamente.
Outra tcnica pioneira desenvolvida pelo sistema SMART a reformulao da
expresso de busca do usurio com o propsito de obter melhores resultados na recuperao.
Essa reformulao pode ser feita automaticamente ou atravs da interao do usurio, em um
processo conhecido como Relevance Feedback. Esse processo visa construir uma nova
expresso de busca a partir dos documentos identificados como relevantes no conjunto de
documentos resultantes de uma busca anterior. No sistema SMART, o processo de
reformulao das expresses de busca baseado nas seguintes operaes:
34
Termos que ocorrem em documentos identificados como relevantes so
adicionados expresso de busca. Os termos que j fazem parte da expresso de
busca tm seus pesos aumentados;
Termos que ocorrem nos documentos identificados como no relevantes so
excludos da expresso de busca original ou seus pesos so apropriadamente
reduzidos
A operao de relevance feedback pode ser repetida diversas vezes at que o usurio
obtenha um resultado satisfatrio para suas necessidades.
O sistema SMART continua sendo uma referncia no desenvolvimento de sistemas de
recuperao de informao, e ainda utilizado para pesquisas em ambiente acadmico.
Resultados obtidos por uma grande variedade de testes TREC (Text Retrieval Conference)
indicam que o sistema SMART ainda consegue um desempenho acima da mdia em relao a
outros sistemas, sob determinadas condies (Buckley et al, 1995).
Os programas-fonte do sistema SMART esto disponveis gratuitamente na Internet
atravs do servidor FTP da Universidade de Cornell (ftp://ftp.cs.cornell.edu/pub/smart/).
4.3 Modelo probabilstico
Na matemtica, a teoria das probabilidades estuda os experimentos aleatrios que,
repetidos em condies idnticas, podem apresentar resultados diferentes e imprevisveis. Isso
ocorre, por exemplo, quando se observa a face superior de um dado aps o seu lanamento ou
quando se verifica o naipe de uma carta retirada de um baralho. Por apresentarem resultados
imprevisveis, possvel apenas estimar a possibilidade ou a chance de um determinado
evento ocorrer.
Para descrever matematicamente um experimento necessrio inicialmente identificar
o conjunto dos possveis resultados do experimento. No lanamento de um dado, por
exemplo, o conjunto dos possveis resultados {1, 2, 3, 4, 5, 6}. Esse conjunto denominado
espao amostral.
Durante um determinado experimento pode-se estar interessado em algum aspecto
particular ou em alguma situao que esperamos que acontea. No lanamento de um dado,
por exemplo, pode-se estar interessado nos nmeros maiores que 3, isto , no conjunto {4, 5,
35
6}. Se o interesse reside nos nmeros pares, o conjunto ser {2, 4, 6}. Ao conjunto dos
valores de interesse em um determinado experimento d-se o nome de evento. Quando este
conjunto composto por um nico elemento chamado de evento elementar.
Considerando um experimento aleatrio, a cada evento elementar pode-se associar um
valor numrico que expressa a chance ou a probabilidade de que esse evento ocorra. A
probabilidade de um evento elementar E ocorrer em um espao amostral S a razo entre o
nmero de elementos de E, simbolizado por n(E) e o nmero de elementos de S ( n(S) ).
) n(
) n(
) p(
S
E
E =

No lanamento de um dado o espao amostral S={1, 2, 3, 4, 5, 6} e a probabilidade
de sair o nmero 5 (E= { 5 }) :
6
1
) ( n
) ( n
) 5 ( p = =
S
E

A probabilidade de ocorrer um determinado evento somado probabilidade de no
ocorrer tal evento ser sempre igual a 1. A probabilidade de sair o nmero 4 no lanamento de
um dado, somado probabilidade de no sair o nmero 4 ser:
1
6
5
6
1
) 4 ( p ) 4 ( p = + = +
Um espao amostral chamado equiprovvel quando seus eventos elementares tm
iguais probabilidades de ocorrncia. No lanamento de um dado, por exemplo, o espao
amostral equiprovvel j que a possibilidade de ocorrer cada um de seus nmeros igual a
1/6.
Um determinado experimento pode ser composto por dois eventos. Esses eventos
podem ser dependentes ou independentes. Eventos dependentes so aqueles em que a
ocorrncia de um influencia na probabilidade da ocorrncia de outro. Dois eventos so
independentes quando um no interfere no outro.
Considerando dois eventos independentes, a probabilidade de ambos ocorrerem igual
multiplicao da probabilidade de cada um desses eventos isolados. Por exemplo, jogando-
se dois dados, a probabilidade de sair o nmero 1 em um dos dados e o nmero 6 em outro :
36
02777 . 0
36
1
6
1
6
1
) 6 ( p ) 1 ( p ) 6 e 1 ( p = = = =
A probabilidade de pelo menos um evento ocorrer calculado atravs da soma da
probabilidade de cada evento isolado. Jogando-se dois dados, qual a probabilidade de sair o
nmero 1 em um dado ou o nmero 6 em outro?
33333 . 0
6
2
6
1
6
1
) 6 ( p ) 1 ( p ) 6 ou 1 ( p = = + = + =
Quando dois eventos se mostram dependentes, o clculo da probabilidade envolve as
chamadas Probabilidades Condicionais. A probabilidade da ocorrncia de um evento A,
sabendo-se que o evento B ocorreu, calculada como:
) ( p
) e ( p
) | ( p
B
B A
B A =
Por exemplo, uma pesquisa para provar a relao entre o tabagismo e o cncer de
pulmo foi realizada com duzentas e trinta pessoas. Os resultados obtidos foram os seguintes:

com cncer sem cncer
fumante 70 8 78
no fumante 20 132 152
90 140 230

De acordo com essa tabela, se uma pessoa fumante ela necessariamente ter mais
chances de ter cncer do que uma pessoa no fumante? Para responder questes como essas se
utiliza o conceito de probabilidade condicional. Estamos interessados em duas sub-
populaes:
A={ pessoas que so fumantes }
B={ pessoas com cncer de pulmo }
A probabilidade que uma pessoa selecionada ao acaso da sub-populao B (fumante)
estar tambm em A (cncer) calculada como:
77.77% ou 7777 . 0
90
70
230
90
230
70
) ( p
) e ( p
) | ( p = = = =
B
B A
B A
37
Portanto, a probabilidade de uma pessoa ser fumante, sabendo-se que ela tem cncer
no pulmo de 77.77%.
Porm, a questo que um fumante desejaria fazer : Qual a probabilidade de um
fumante ter cncer de pulmo? Isto , o que lhe interessa o valor de p(B|A). Tendo-se o valor
de p(A|B), uma das maneiras de achar a probabilidade p(B|A) utilizar o teorema de Bayes,
apresentado abaixo.
) ( p
) ( p ) | ( p
) | ( p
A
B B A
A B

=
No exemplo, o clculo da probabilidade de p(B|A) ser:
89.74% ou 8974 . 0
3391 . 0
3043 . 0
230
78
230
90
7777 . 0
) ( p
) ( p ) | ( p
) | ( p = =

=
A
B B A
A B
Portanto, na populao utilizada no experimento, a probabilidade de um fumante ter
cncer de 89.74%.
4.3.1 Recuperao probabilstica
O modelo probabilstico proposto por Robertson e Jones (1976), posteriormente
conhecido como Binary Indepence Retrieval, tenta representar o processo de recuperao de
informao sob um ponto de vista probabilstico.
Dada uma expresso de busca, pode-se dividir o corpus (com N documentos) em
quatro subconjuntos distintos (Figura 11): o conjunto dos documentos relevantes (Rel), o
conjunto dos documentos recuperados (Rec), o conjunto dos documentos relevantes que
foram recuperados (RR) e o conjunto dos documentos no relevantes e no recuperados. O
conjunto dos documentos relevantes e recuperados (RR) resultante da interseo dos
conjuntos Rel e Rec.
38

Figura 11 Subconjuntos de documentos aps a execuo de uma busca
O resultado ideal de uma busca o conjunto que contenha todos e apenas os
documentos relevantes para o usurio, isto , todo o conjunto Rel. Se o usurio soubesse
exatamente o que distingue os documentos desse conjunto dos demais documentos do corpus
seria fcil recuper-los. No entanto, como as caractersticas dos documentos no so
conhecidas, tenta-se adivinhar tais caractersticas atravs da formulao de uma expresso de
busca, gerando uma primeira descrio probabilstica desse conjunto. Com os resultados
obtidos aps a execuo da primeira busca possvel gradativamente melhorar os resultados
atravs de interaes com o usurio.
Seja Rel o conjunto de documentos relevantes e Rel o complemento de Rel, ou seja, o
conjunto dos documentos no relevantes. A probabilidade de um documento d ser relevante
em relao expresso de busca designada por p(Rel|d). A probabilidade de um documento
ser considerado no relevante representada por ) ( p d | Rel . A similaridade (sim) de um
documento d em relao expresso de busca eBUSCA definida como:
) | ( p
) | ( p
) , (
d Rel
d Rel
eBUSCA d sim =
Usando a funo de Bayes obtm-se a seguinte expresso:
) ( p ) | ( p
) ( p ) | ( p
) , (
Rel Rel d
Rel Rel d
eBUSCA d sim

=
A expresso p(d|Rel) representa a probabilidade de se selecionar o documento d do
conjunto de documentos relevantes Rel e ) | ( Rel d p representa a probabilidade de se
selecionar o documento d do conjunto dos documentos no relevantes. A expresso p(Rel)
representa a probabilidade de um documento selecionado aleatoriamente ser relevante,
enquanto ) (Rel p representa a probabilidade de um documento no ser relevante.
39
Considerando p(Rel) e ) (Rel p iguais para todos os documentos do corpus, a frmula
da similaridade pode ento ser escrita como:
) | ( p
) | ( p
) , (
Rel d
Rel d
eBUSCA d sim
Um documento representado por um vetor binrio cuja presena e a ausncia de um
determinado termo de indexao (t
i
) designado respectivamente por 1 ou 0.
t
1
t
2
t
3
t
n

DOC w
1
w
2
w
3
w
n

onde w
i
pode assumir o valor zero ou um, indicando a ausncia ou a presena do termo de
indexao t
i
no conjunto dos indexadores do documento DOC.
A probabilidade de um termo t
i
estar presente em um documento selecionado do
conjunto Rel representado por p(t
i
| Rel) e ) | ( p Rel t
i
a probabilidade do termo t
i
no estar
presente em um documento selecionado de Rel. Lembrando que 1 ) | ( p ) | ( p = + Rel t Rel t
i i
, e
ignorando fatores que so constantes para todos os documentos no contexto de uma mesma
busca, tem-se finalmente:

=
|
|
.
|

\
|

t
i
i i
i i
Rel t Rel t
Rel t Rel t
eBUSCA d sim
1
) | ( p ) | ( p
) | ( p ) | ( p
log ) , ( [1]
Esta expresso fundamental para ordenar os documentos no modelo probabilstico.
Todo clculo de probabilidade resume-se a um problema de contagem. Portanto, para
uma determinada expresso de busca, pode-se representar os documentos do corpus da
seguinte forma:

Relevante no-Relevante
documento contendo t
i
r n-r n
documento que no contm t
i
R-r N-R-n+r N-n
R N-R N

Considerando um corpus com N documentos e um determinado termo t
i
, existe no
corpus um total de n documentos indexados por t
i
. Desses n documentos apenas r so
relevantes.
A frmula de similaridade (equao [1]) pode ser traduzida com base na tabela acima,
considerando as seguintes igualdades:
40
r ) | ( p = Rel t
i

r n R N ) | ( p + = Rel t
i

r n ) | ( p = Rel t
i
r R ) | ( p = Rel t
i

=
|
|
.
|

\
|

+

t
i
r R r n
r n R N r
eBUSCA d sim
1
) ( ) (
) (
log ) , (
No incio do processo de busca no se sabe qual o conjunto de documentos relevantes
( R ), j que nenhum documento foi ainda recuperado. Portanto, antes da primeira busca
necessrio fazer algumas simplificaes, tais como: (a) assumir que p(t
i
| Rel) constante e
igual a 0.5 para todos os temos t
i
e (b) assumir que a distribuio dos termos de indexao dos
documentos (relevantes ou no) uniforme. Assim, obtm-se a seguinte frmula:

=
|
.
|

\
|

t
i
n
n N
eBUSCA d sim
1
log ) , ( [2]
Atravs dessa frmula ordenado o conjunto de documentos resultantes da primeira
busca. Tendo esse conjunto de documentos, o usurio seleciona alguns documentos que
considera relevantes para a sua necessidade. O sistema ento utiliza esta informao para
tentar melhorar os resultados subseqentes.
Para exemplificar, ser considerado um corpus contendo 6 documentos e 10 termos de
indexao:

t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
t
9
t
10

DOC
1
1 0 0 1 0 0 0 1 1 0
DOC
2
0 0 0 0 0 0 0 1 1 1
DOC
3
0 1 0 0 0 1 1 0 0 0
DOC
4
1 0 0 1 0 0 0 0 0 1
DOC
5
0 0 0 0 0 0 0 1 1 0
DOC
6
0 0 1 0 1 0 0 0 0 0

A expresso de busca (eBUSCA) ser composta pelos termos t
4
e t
10
sendo
representada pelo seguinte vetor:

t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
t
9
t
10

eBUSCA 0 0 0 1 0 0 0 0 0 1

Aps a execuo da primeira busca os documentos recuperados sero apresentados em
ordem do valor resultante da equao [2] aplicada a cada documento. Alguns documentos,
41
como no caso dos documentos 3, 5 e 6, no so recuperados pois apresentaram valor menor
ou igual a zero.

t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
t
9
t
10
sim(DOC
i
, eBUSCA)

DOC
4
1 0 0 1 0 0 0 0 0 1 0.51
DOC
1
1 0 0 1 0 0 0 1 1 0 0.26

DOC
2
0 0 0 0 0 0 0 1 1 1 0.26

Com esse primeiro resultado o usurio poder selecionar alguns documentos que so
teis para a sua necessidade. No exemplo apenas trs documentos resultaram da primeira
busca. Porm, se uma busca resultar uma quantidade muito grande de documentos basta
selecionar alguns poucos documentos que considerasse relevante. No exemplo, o documento
DOC
1
, apesar de ter o mesmo grau de similaridade (sim) do documento DOC
2
ele no foi
considerado relevante pelo usurio. Aps submeter novamente a expresso de busca,
juntamente com os documentos selecionados, o sistema calcular para cada documento um
valor da similaridade utilizando a equao [1]. Esse valor ser utilizado para ordenar o
conjunto de documentos recuperados:

t
1
t
2
t
3
t
4
t
5
t
6
t
7
t
8
t
9
t
10
sim(DOC
i
, eBUSCA)
DOC
4
1 0 0 1 0 0 0 0 0 1 2.02
DOC
2
0 0 0 0 0 0 0 1 1 1 1.65
DOC
1
1 0 0 1 0 0 0 1 1 0 0.37

Com a repetio desse processo espera-se uma melhora progressiva nos resultados da
busca. O usurio poder repetir esse processo de seleo dos documentos relevantes at que o
conjunto de documentos recuperados satisfaa sua necessidade de informao.
A principal virtude do modelo probabilstico est em reconhecer que a atribuio de
relevncia uma tarefa do usurio. o nico modelo que incorpora explicitamente o processo
de Relevance Feedback como base para a sua operacionalizao.
importante observar que o modelo probabilstico pode ser facilmente implementado
utilizando a estrutura proposta pelo modelo vetorial, permitindo integrar as vantagens desses
dois modelos em um sistema de recuperao de informao.
Embora o modelo probabilstico tenha um forte embasamento terico, as hipteses
assumidas para realizar simplificaes nos clculos probabilsticos podem deixar dvidas
sobre sua preciso. Uma simplificao bastante questionvel est no fato de o modelo
42
considerar os pesos dos termos de indexao como sendo binrios, isto , no modelo
probabilstico no considerada a freqncia com que os termos ocorrem no texto dos
documentos.
Alguns experimentos utilizando poucos documentos demonstram que este modelo
produz resultados pouco superiores em relao ao modelo booleano. Pode ser que no contexto
heterogneo e complexo da Web os mtodos probabilsticos venham a se destacar. Porm, a
sua complexidade desencoraja muitos desenvolvedores de sistema a abandonar os modelos
booleano e vetorial (Jones, Walker e Robertson, 2000).
4.4 Modelo fuzzy
A lgica aristotlica uma forte presena na cultura ocidental e est profundamente
enraizada em nossa forma de pensar. Uma determinada afirmao verdadeira ou falsa; uma
pessoa ou amiga ou inimiga. Na cincia a verdade e a preciso esto intimamente ligadas e
so partes indispensveis do mtodo cientfico. Se algo no absolutamente correto ento no
verdade.
Porm, observa-se um considervel descompasso entre a realidade e a nossa viso
bivalente do mundo. O mundo real contm uma infinidade de gradaes entre o preto e o
branco, entre o certo e o errado, entre o verdadeiro e o falso. O mundo real multivalente e
analgico. Verdade e preciso absolutas existem apenas em casos extremos.
A comunicao humana vaga e imprecisa, contendo diversas incertezas. Quando se
diz que uma determinada pessoa alta, o que se est querendo dizer precisamente: 170 cm,
180 cm, 190 cm? Se fosse definido um limite de altura de 180 cm, por exemplo, ento uma
pessoa com 179 cm no seria considerada alta. Intuitivamente sabemos que no h uma
distino clara entre uma pessoa de 179 cm de altura e uma de 180 cm. Quando os seres
humanos pensam em altura eles normalmente no tm um limite fixo em mente, mas uma
definio nebulosa, vaga.
O objetivo da lgica fuzzy capturar e operar com a diversidade, a incerteza e as
verdades parciais dos fenmenos da natureza de uma forma sistemtica e rigorosa (Shaw e
Simes, 1999).
43
4.4.1 Conjuntos fuzzy
Zadeh (1965) props uma nova teoria de conjuntos em que no h descontinuidades,
ou seja, no h uma distino abrupta entre elementos pertencentes e no pertencentes a um
conjunto: os Conjuntos Nebulosos (Fuzzy Sets).
Na teoria matemtica dos conjuntos, para indicar que um elemento x pertence a um
conjunto A, utiliza-se a expresso x A. Poderia-se tambm utilizar a funo
A
(x), cujo
valor indica se o elemento x pertence ou no ao conjunto A . Neste caso
A
(x) uma funo
bivalente que somente resulta 1 (um) ou zero, dependendo se o elemento x pertence ou no ao
conjunto A:

=
A x
A x
x
A
se 0
se 1
) (

Na Figura 12 observa-se que, se o elemento x
2
for movido em direo ao elemento x
1
,
no limite do conjunto A ocorrer subitamente uma alterao de seu estado, passando de no-
membro para membro do conjunto.

Figura 12 Pertinncia de um elemento em relao a um conjunto
Na lgica fuzzy um elemento pode ser membro de um conjunto apenas parcialmente.
Um valor entre zero e um (1) indicar o quanto o elemento membro do conjunto.
A teoria dos conjuntos fuzzy baseada no fato de que os conjuntos existentes no
mundo real no possuem limites precisos. Um conjunto fuzzy um agrupamento indefinido de
elementos no qual a transio de cada elemento de no-membro para membro do conjunto
gradual. Esse grau de impreciso de um elemento pode ser visto como uma medida de
possibilidade, ou seja, a possibilidade de que um elemento seja membro do conjunto.
44

Figura 13 Representao das funes
alto e

baixo

No exemplo da Figura 13 o conjunto dos diversos valores das alturas de uma pessoa
denominado universo do discurso. Todo conjunto fuzzy na realidade um subconjunto do
universo do discurso. Um subconjunto A do universo do discurso U caracterizado por uma
funo
A
que associa a cada elemento x de U um nmero
A
(x) entre 0 e 1. Assim, temos:
{ } U x x x A
A
= | ) ( ,
onde
A
(x) resulta um valor numrico entre zero e um que representa o quando o elemento x
pertence ao conjunto A.
Vejamos um exemplo: supondo que A seja o conjunto de pessoas altas e x
1
e x
2

representam duas pessoas com 190 cm e 170 cm de altura, respectivamente. O subconjunto A
ser caracterizado pela funo
A
(x), que associa a cada elemento x
1
e x
2
do universo do
discurso ( U ) um nmero, respectivamente
A
(x
1
) e
A
(x
2
). No grfico da Figura 13 teremos

A
(x
1
) igual a 0,75 ou 75%, e
A
(x
2
) igual a 0,25 ou 25%. Portanto, no exemplo, uma pessoa
com 190cm 75% alta e uma pessoa com 170cm apenas 25% alta. Ou seja, em um conjunto
fuzzy um mesmo objeto pode pertencer a dois ou mais conjuntos com diferentes graus. Uma
pessoa com 190 cm pertence 75% ao conjunto das pessoas altas ao mesmo tempo em que
pertence 25% ao conjunto das pessoas baixas. Uma pessoa que mede 180 cm
simultaneamente 50% alta e 50% baixa (
alta
(180)=
baixa
(180)=0.5).
As operaes mais utilizadas nos conjuntos fuzzy so: complemento, unio e
interseo e so definidas como segue:
Complemento:
) ( 1 ) ( u u
A
A
=
Unio:
)) ( , ) ( max( ) ( u u u
B A B A
=


Inserseo:
)) ( , ) ( min( ) ( u u u
B A B A
=



45
Utilizando a Figura 13, essas operaes so exemplificadas abaixo:
0.25 = = = 0.75 - 1 ) 170 ( 1 ) 170 (
baixo
baixo

0.75 0,25) max(0.75, )) 170 ( , ) 170 ( max( ) 170 ( = = =
alto baixo alto baixo

0.25 0.25) min(0.75, )) 170 ( , ) 170 ( min( ) 170 ( = = =
alto baixo alto baixo

A teoria fuzzy possibilita a definio de classes de elementos em situaes onde no
possvel uma delimitao precisa e natural de suas fronteiras. Este ambiente terico capaz de
representar de forma mais eficiente a inerente impreciso das entidades envolvidas em um
sistema de recuperao de informao, muito embora seja conflitante com a teoria clssica
dos sistemas de classificao, segundo a qual as classes devem ser auto-excludentes.
4.4.2 Conjuntos fuzzy na recuperao de informao
Um documento pode ser visto como um conjunto fuzzy de termos, { (t)/t }, cujos
pesos dependem do documento e do termo em questo, isto : (t)=F(d,t). Portanto, a
representao fuzzy de um documento baseada na definio de uma funo F(d, t) que
produz um valor numrico que representa o peso do termo t para o documento d.
O peso associado a um termo expressa o quanto esse termo significativo na descrio
do contedo do documento. A qualidade da recuperao depende em grande parte da funo
adotada para calcular os pesos dos termos de indexao (Salton e Buckley, 1988). Geralmente
esta funo baseia-se no clculo da freqncia de ocorrncia dos termos em todo o texto, e
fornece uma representao esttica do documento. O clculo dos pesos no considera que em
muitos casos os documentos podem estar estruturados em sub-partes lgicas ou sees, e que
as ocorrncias de um termo podem assumir significados diferentes dependendo da seo onde
ele aparece. Um artigo cientfico, por exemplo, geralmente est organizado em ttulo, autores,
palavras-chave, resumo, referncias, etc. Uma nica ocorrncia de um termo no ttulo sugere
que o artigo discorre sobre o conceito expresso pelo termo. As sees de um documento
podem assumir diferentes graus de importncia dependendo da necessidade do usurio.
Quando, por exemplo, o usurio est procurando artigos escritos por uma determinada pessoa,
a parte mais importante a ser analisada a seo de autores. Quando se procura artigos de um
determinado assunto, o ttulo, as palavras-chaves, o resumo e a introduo assumem maior
importncia.
46
Bordogna e Pasi (1995) propem uma representao fuzzy para documentos
estruturados que pode ser ajustada de acordo com os interesses do usurio. A importncia de
um termo t em um documento d calculada pela avaliao da importncia de t em cada uma
das sees de d. Isto feito atravs da aplicao de uma funo F
Si
(d, t) que expressa o grau
de pertinncia do termo t na seo S
i
do documento d, como ilustrado na Figura 14.

Figura 14 Representao fuzzy de um documento estruturado
Para cada seo S
i
o usurio pode associar uma importncia numrica
Si
que ser
usada para enfatizar a funo F
Si
(t,d). Para se obter um grau de pertinncia de um termo em
relao a um documento os graus de pertinncia do termo em cada uma das sees F
S1
(d,t),
F
S2
(d,t),...F
Sn
(d,t) so agregados por meio de uma funo, que pode ser selecionada pelo
usurio entre um conjunto pr-definido de quantificadores lingsticos tais como all, least
one, at least about k, all (Yager, 1988). O quantificador lingstico indica o nmero de sees
em que um termo deve aparecer para que o documento seja considerado relevante. Esta
representao fuzzy de documentos foi implementada em um sistema denominado DOMINO
(Bordogna et al, 1990) e mostrou ser mais eficaz em relao a outros tipos de representao
fuzzy.
Utilizando idia semelhante, Molinari e Pasi (1996) propem um mtodo de indexao
de documentos HTML baseado na estrutura sinttica dessa linguagem de marcao. Para cada
seo de um documento HTML, delimitada pelas marcaes (tags), associado um grau de
importncia. Pode-se supor, por exemplo, que quanto maior o tamanho dos caracteres de um
trecho do texto maior a importncia atribuda a esse trecho. Da mesma forma, uma palavra em
negrito ou itlico geralmente representa um destaque dado pelo autor da pgina HTML para
uma palavra. Assim, para cada tag pode ser associado um valor numrico que expressa a sua
47
importncia para o documento. O peso de um termo em relao a um determinado documento
obtido atravs de uma funo de agregao que considera a importncia de cada tag do
documento onde o termo aparece.
O modelo fuzzy tem sido discutido principalmente na literatura dedicada teoria fuzzy,
no sendo popular entre a comunidade da recuperao de informao. Alm disso, a grande
maioria dos experimentos realizados com este modelo considera apenas pequenos corpora,
que no comprovam sua efetiva superioridade em relao a outros modelos de recuperao de
informao (Baeza-Yates e Ribeiro-Neto, 1999, p. 38).
4.5 Modelo booleano estendido
No modelo booleano uma expresso de busca composta por termos conectados por
operadores OR (t
1
or t
2
or ... or t
n
) recuperar documentos indexados por pelo menos um
destes termos. Um documento indexado por todos os termos tratado da mesma forma que
um documento indexado por apenas um dos termos. Em uma expresso composta por dez
termos conectados por operadores AND (t
1
and t
2
and ... and t
10
), um documento indexado por
nove desses termos visto da mesma maneira que um documento que no indexado por
nenhum deles. Este julgamento binrio, inerente ao modelo booleano, no est de acordo com
o senso comum. Intuitivamente sabe-se que aps uma busca utilizando uma expresso
booleana conjuntiva ( t
1
and t
2
), os documentos indexados por apenas um dos termos da
expresso, que no foram recuperados, possuem um certo grau de importncia e poderiam vir
a ser considerados relevantes por um usurio. Utilizando uma expresso disjuntiva ( t
1
or t
2
)
um documento indexado por ambos os termos da expresso pode ser considerado mais
importante do que os documentos indexados por apenas um dos termos.
O modelo booleano estendido, proposto por Salton, Fox e Wu (1983), tenta unir a
potencialidade das expresses booleanas com a preciso do modelo vetorial. Por um lado
busca-se flexibilizar o modelo booleano, introduzindo uma gradao no conceito de
relevncia e, por outro lado, dar maior poder s buscas do modelo vetorial atravs do uso dos
operadores booleanos.
Utilizando-se dois termos (t
1
e t
2
) para representar expresses de busca e documentos,
define-se um espao bidimensional onde cada termo associado a um eixo, como mostrado
na Figura 15. Um documento representado por um vetor com dois elementos contendo o
48
peso dos respectivos termos. Estes pesos definem o posicionamento do documento nesse
espao.

Figura 15 Representao de documentos em um espao bidimensional
Em expresses disjuntivas o ponto (0, 0) deve ser evitado pois representa a situao na
qual nenhum dos termos est presente no documento. Assim, a distncia de um documento ao
ponto (0,0) considerado o grau de relevncia ou a similaridade do documento em relao
busca. Quanto maior a distncia de um documento em relao a este ponto, maior ser sua
similaridade em relao expresso de busca.
A similaridade entre um documento DOC=(w
t1
, w
t2
) e uma expresso de busca
eBUSCA= t
1
or t
2
calculada atravs da seguinte frmula:
2
) eBUSCA , DOC (
2
t2
2
t1
or t2 t1
w w
sim
+
=
onde w
t1
e w
t2
representam os pesos de cada um dos termos de indexao do documento DOC.
A similaridade entre uma expresso disjuntiva eBUSCA= t
1
or t
2
e o documento
d
1
=(0.15, 0.35), representado na Figura 15, calculada da seguinte forma:
2692 . 0
2
35 . 0 15 . 0
) eBUSCA , d (
2 2
or t2 t1 1
=
+
= sim
Para o documento d
2
=(0.9, 0.55) o valor da similaridade :
7458 . 0
2
55 . 0 9 . 0
) eBUSCA , d (
2 2
or t2 t1 2
=
+
= sim
49
Para expresses conjuntivas o ponto (1, 1) o mais desejvel, j que representa a
situao na qual ambos os termos da expresso esto presentes na representao de um
documento. Quanto menor a distncia de um documento em relao a este ponto maior sua
similaridade em relao expresso de busca.
A similaridade entre um documento DOC=(w
t1
, w
t2
) e uma expresso conjuntiva
eBUSCA=t
1
and t
2
calculada como:
2
) 1 ( ) 1 (
1 ) eBUSCA , DOC (
2
t2
2
t1
t2 and t1
w w
sim
+
=
A similaridade entre uma expresso de busca eBUSCA= t
1
and t
2
e o documento d
1
da
Figura 15 :
2434 , 0
2
) 35 . 0 1 ( ) 15 . 0 1 (
1 ) eBUSCA , d (
2 2
t2 and t1 1
=
+
= sim
Para o documento d
2
o valor da similaridade :
6740 . 0
2
) 55 . 0 1 ( ) 9 . 0 1 (
1 ) eBUSCA , d (
2 2
t2 and t1 2
=
+
= sim
Para tornar o modelo mais flexvel, utiliza-se o conceito matemtico de norma L
p
, em
que a norma de um vetor ) ... (
2 1 n
v v v v + + + = calculada como:
p p p p
p
v v v v
/ 1
1 1 1
) ... ( + + + =
A similaridade entre um documento e uma expresso de busca continua sendo uma
funo da distncia entre dois pontos. Porm, ao invs de ser utilizar a distncia euclidiana,
utiliza-se a norma L
p
. Assim, as frmulas de similaridade entre uma expresso de busca
eBUSCA e um documento DOC podem ser representadas da seguinte forma:
p
p p
w w
sim
/ 1
t2 t1
or t2 t1
2
) eBUSCA , DOC (
|
|
.
|

\
| +
=
p
p p
w w
sim
/ 1
t2 t1
t2 and t1
2
) 1 ( ) 1 (
1 ) eBUSCA , DOC (
|
|
.
|

\
| +
=
50
Pode-se agora generalizar estas frmulas para considerar no apenas dois termos, mas
um nmero n de termos. Sero considerados tambm os pesos dos termos da expresso, como
no modelo vetorial. Assim, para uma expresso disjuntiva a frmula da similaridade ser:
p
p
nc
p
c
p
c
p
nd
p
nc
p
d
p
c
p
d
p
c
p
w w w
w w w w w w
sim
/ 1
2 1
2 2 1 1
) or(
...
...
) eBUSCA , DOC (
|
|
.
|

\
|
+ + +
+ + +
=
onde w
ic
o peso atribudo ao i-simo termo da expresso eBUSCA e w
id
o peso atribudo
ao i-simo termo de indexao do documento DOC. O parmetro p definido durante a
formulao da expresso de busca.
Para expresses conjuntivas, a similaridade dada por:
p
p
nc
p
c
p
c
p
nd
p
nc
p
d
p
c
p
d
p
c
p and
w w w
w w w w w w
sim
/ 1
2 1
2 2 1 1
) (
...
) 1 ( ... ) 1 ( ) 1 (
1 ) eBUSCA , DOC (
|
|
.
|

\
|
+ +
+ + +
=
O valor do parmetro p determina a interpretao dos operadores booleanos. Os
valores de p e a sua correspondente interpretao so apresentados a seguir (Salton, 1984):
Quando p igual a 1 os resultados das expresses disjuntivas e conjuntivas so
idnticos, isto , no h distino entre or ou and, e o resultado semelhante ao
obtido no modelo vetorial.
Quando o valor p bastante alto, ou tende a infinito ( ) os resultados so
compatveis com os produzidos pelas expresses booleanas convencionais. De
uma forma simplificada, a similaridade de expresses disjuntivas pode ser
calculada como:
sim(DOC, eBUSCA
or()
) = max( w
1
, w
2
, w
3
, ...).
Isto , a similaridade de um documento em relao expresso igual ao maior
peso associado aos termos que representam o documento.
Para expresses conjuntivas a similaridade pode ser calculada como:
sim(DOC, eBUSCA
and()
=min( w
1
. w
2
, w
3
, ...)
Isto , a similaridade do documento DOC em relao expresso de busca
eBUSCA igual ao menor peso associado aos termos de indexao do documento.
51
Quando p est entre e 1, os resultados produzidos so intermedirios entre uma
busca booleana pura e uma busca do modelo vetorial.
Valores de p associados aos operadores booleanos refletem o grau de importncia ou o
rigor atribudo ao operador correspondente. Quanto menor o valor de p menos estrita ser a
interpretao do operador. Com um aumento no valor de p aumenta-se a rigidez do operador,
aproximando-o do modelo booleano puro. Uma expresso de busca cujos termos possuem
pesos e cada operador booleano possui um valor de p pode ser exemplificada como segue:
t
1

(0.3)
and
2
t
2

(0.7)
or
1.5
t
3

(0.4)

O clculo da similaridade para uma expresso de busca composta de operaes
disjuntivas e conjuntivas feito atravs do clculo da similaridade de partes da expresso.
Para o exemplo apresentado a seguir, ser considerado um corpus contendo trs
documentos indexados por trs termos com seus respectivos pesos, como apresentado abaixo.
information retrieval document
DOC
1
0.8 0.2 0.4
DOC
2
0.5 0.4 0.2
DOC3 0.4 0.6 0.0

Ser considerada a seguinte expresso de busca:
eBUSCA=( information
(0.6)
OR
2
document (0.3) )
(0.7)
AND
1.5
retrieval
(0.5)

Para calcular a similaridade desta expresso em relao ao documento DOC
1
ser
isolada a operao OR que aparece entre parnteses. Essa parte da expresso ser designada
B
1
.
B
1
= ( information
(0.6)
OR
2
document
(0.3)
)
0,7376
0.3 0.6
) 4 . 0 3 . 0 ( ) 8 . 0 6 . 0 (
) B , DOC (
2 / 1
2 2
2 2
1 1
=
|
|
.
|

\
|
+
+
= sim
Utilizando o valor da similaridade entre B
1
e DOC
1
( sim(B
1
, DOC
1
) ), o enunciado da
expresso de busca de busca pode ser representado e calculado da seguinte forma:
eBUSCA = sim(DOC
1
, B
1
)
(0.7)
AND
1.5
retrieval
(0.5)

0,50
0.5 0.7
) 2 . 0 1 ( 5 . 0 ) 7376 . 0 1 ( 7 . 0
) eBUSCA , DOC (
5 . 1 / 1
1.5 1.5
5 . 1 5 . 1 5 . 1 5 . 1
1
=
|
|
.
|

\
|
+
+
= sim
52
Utilizando-se o mesmo clculo para os demais documentos e ordenando os
documentos em ordem decrescente do valor da similaridade, o resultado da expresso de
busca (eBUSCA) seria a seguinte lista de documentos:

DOC
3
0,5077
DOC
1
0.50
DOC
2
0,4346

Uma das funes de um sistema de recuperao de informao apresentar os
documentos resultantes de forma que os usurios sejam capazes de verificar facilmente sua
pertinncia. Embora o modelo booleano possua a vantagem de ser de fcil implementao e
permitir uma recuperao relativamente eficiente, ele no possibilita o ordenamento dos
documentos recuperados. O modelo vetorial, apesar de permitir a ordenao dos documentos
resultantes de forma bastante precisa, no possibilita a utilizao de buscas booleanas, o que
restringe sua capacidade.
O modelo booleano estendido tenta contornar as limitaes do modelo vetorial e do
modelo booleano clssico atravs de uma conceituao matemtica mais genrica. As
expresses booleanas e as buscas do modelo vetorial so casos particulares do modelo
booleano estendido. Essa generalizao feita atravs da introduo de dois novos parmetros
em relao ao modelo booleano tradicional: os pesos associados aos termos da expresso de
busca e o parmetro p associado a cada operador booleano. Esse aumento da complexidade na
formulao de buscas a principal desvantagem do modelo booleano estendido.
O modelo booleano estendido nunca foi utilizado extensivamente. Para Baeza-Yates e
Ribeiro-Neto (1999, p. 41) este modelo fornece um ambiente elegante que poderia ser til
no futuro.
4.6 Concluso
O processo de recuperao de informao inerentemente impreciso devido a fatores
que talvez nunca sero totalmente equacionados. A modelagem matemtica desse processo s
possvel atravs de simplificaes tericas e da adequao de conceitos tipicamente
subjetivos como informao e relevncia. Estas simplificaes refletem em limitaes
qualitativas que se relacionam, por um lado, com a representao da complexidade semntica
53
dos textos, e por outro lado, com a interao do usurio com os sistemas de recuperao de
informao.
Na maioria dos modelos apresentados neste captulo transparece o seu carter
emprico, baseado muitas vezes em suposies e levando a um aumento progressivo da
complexidade, sem refletir em avanos significativos dos resultados.
Apesar de seu aparente esgotamento, os modelos quantitativos ainda esto presentes
na maioria dos sistemas de recuperao de informao e ganharam fora com os mecanismos
de busca da Web, que introduziram caractersticas especficas para tratar a quantidade de
informao disponvel na Internet (Captulo 6). Alm disso, os modelos quantitativos ainda
fornecem seu considervel arsenal terico para outras disciplinas, servindo de instrumento
bsico para o desenvolvimento de tcnicas de representao do conhecimento ligadas
Inteligncia Artificial.
54
5
5

Modelos Dinmicos

No processo de recuperao de informao, os modelos quantitativos impem uma
determinada representao dos documentos. Essa representao feita geralmente atravs da
associao de termos de indexao e respectivos pesos aos documentos do corpus. Alm de
impositivos e unilaterais, os modelos quantitativos no prevem qualquer tipo de interveno
do usurio na representao dos documentos.
Os modelos de recuperao de informao apresentados neste captulo tm como
principal caracterstica o reconhecimento da importncia do usurio na definio das
representaes dos documentos. Nesta tica, os usurios interagem e interferem diretamente
na representao dos documentos do corpus, permitindo uma evoluo ou uma adaptao dos
documentos aos interesses dos usurios do sistema, percebidos atravs de suas buscas e da
atribuio de relevncia (e no relevncia) aos documentos recuperados (relevance feedback).
5.1 Sistemas Especialistas
Um sistema especialista um sistema computacional que procura representar o
conhecimento de um especialista humano em um domnio particular, de maneira a auxiliar na
tomada de decises e na resoluo de problemas relacionados a esse domnio. A idia
subjacente construo dos sistemas especialistas que a inteligncia no apenas
raciocnio, mas tambm memria. comum considerarmos inteligente uma pessoa que possui
55
grande quantidade de informao sobre um determinado assunto. Assim, os sistemas
especialistas obedecem ao princpio de que memria condio necessria para a inteligncia.
Os sistemas especialistas fazem parte de uma classe de sistemas ditos baseados em
conhecimento, desenvolvidos para servirem como consultores na tomada de decises em
reas restritas. Estes sistemas so adequados para a soluo de problemas de natureza
simblica, que envolvem incertezas resolvveis somente com regras de bom senso e com
raciocnio similar ao humano. Permitem representar o conhecimento heurstico na forma de
regras obtidas atravs da experincia e intuio de especialistas de uma rea especfica.
A construo de sistemas especialistas obedece ao princpio de que a simulao da
inteligncia pode ser feita a partir do desenvolvimento de ferramentas computacionais para
fins especficos. Um sistema especialista um programa de computador associado a um
banco de memria que contm conhecimentos sobre uma determinada especialidade
(Teixeira, 1998; cap. II).
Um sistema especialista composto de: uma base de conhecimento na qual est
representado o conhecimento relevante sobre o problema, e um conjunto de mtodos de
manipulao desse conhecimento: o motor de inferncia (Figura 16)

Figura 16 Estrutura de um sistema especialista
Pelo fato de a base de conhecimento estar separada do motor de inferncia a
modificao da base facilitada. Assim, uma mudana na base de conhecimento feita
simplesmente atravs da adio de novas regras ou pela excluso ou alterao de regras
antigas.
56
A aquisio e a representao do conhecimento o processo de maior importncia na
construo de um sistema especialista e levou ao surgimento de uma nova rea na Cincia da
Computao: a Engenharia do Conhecimento. A tarefa do engenheiro do conhecimento
extrair dos especialistas humanos os seus procedimentos, estratgias, raciocnios e codifica-
los de forma adequada a fim de gerar a base de conhecimento.
O sistema de aquisio de conhecimento um conjunto de ferramentas que facilita o
trabalho do especialista e do engenheiro do conhecimento. Pode ser constitudo simplesmente
por um editor de texto com verificador da sintaxe exigida na base de conhecimento ou
mecanismos de visualizao grfica da estrutura da informao e instrumentos de teste e
validao semntica do conhecimento contido na base.
A base de conhecimento o elemento central de um sistema especialista. o local
onde o conhecimento especializado humano est representado e armazenado. Geralmente, o
conhecimento armazenado na base de conhecimento representado por regras do tipo
condio-ao, na forma SE-ENTO.
SE condio ENTO ao
Sistemas que utilizam este esquema so chamados de sistemas baseados em regras.
Existem outras formas de representao de conhecimento tais como redes semnticas e
frames.
O motor de inferncia composto por instrumentos para selecionar e aplicar o
conhecimento armazenado na base na resoluo do problema em questo. Estes instrumentos
esto relacionados com a forma de inferncia sobre os dados do sistema, com a forma como
as regras da base de conhecimento sero testadas e com os mtodos de tratamento de
incerteza. A mquina de inferncia busca as regras necessrias a serem avaliadas, ordena-as
de maneira lgica e direciona o processo de inferncia baseado nos dados simblicos contidos
na base de conhecimento.
A interface utilizada para estabelecer a comunicao entre o usurio e o sistema,
podendo ter a forma de menus, perguntas e representaes grficas. Durante o processamento
de um sistema especialista, o usurio poder ser requisitado pelo sistema a prestar
informaes adicionais na soluo de um determinado problema. A cada pergunta respondida
pelo usurio reduz-se a distncia entre o problema e sua soluo, podendo se desencadear um
processo de aprendizagem automtica que altere a configurao atual da base de
57
conhecimento e amplie a capacidade de sistema resolver futuros problemas. Assim, a base de
conhecimento pode ser inicialmente constituda de poucas regras, podendo crescer conforme
o sistema for sendo utilizado. Esse crescimento possvel graas estrutura modular da base
de conhecimento que permite a incluso e excluso de novos elementos.
Um exemplo clssico de sistema especialista o MYCIN, desenvolvido durante a
dcada de 70 com a finalidade de prescrever medicao para pacientes com infeces
bacterianas. A partir de um conjunto de sintomas, ele identifica a molstia e prescreve um
medicamento apropriado utilizando uma base de dados contendo os sintomas e um sistema de
raciocnio do tipo SE...ENTO. Por exemplo:
SE
o paciente apresenta febre,
o paciente apresenta vmitos e diarria,
o paciente est desidratado
ENTO o paciente sofre de infeco intestinal

SE
o paciente sofre de infeco intestinal
ENTO o paciente deve tomar ampicilina
Este seria o caminho preliminar para construir um diagnosticador de infeces
bacterianas. No entanto, o diagnstico mdico envolve uma grande margem de impreciso, ou
seja, existe um componente probabilstico no acerto de diagnsticos mdicos, na medida em
que, por exemplo, nem todos os sintomas ocorrem num paciente com determinada doena.
Uma maneira de contornar esta dificuldade atravs da atribuio de pesos diferentes a
sintomas mais relevantes na caracterizao de uma doena e, atravs destes pesos, estipular a
probabilidade do paciente estar sofrendo de uma determinada molstia. aproximadamente
desta maneira que o MYCIN opera: com uma margem de probabilidade que no fica muito
distante da exibida pelos especialistas humanos.
Uma outra forma de representar o conhecimento em um sistema especialista atravs
de uma rede semntica. Uma rede semntica composta por um conjunto de ns conectados
por um conjunto de arcos. Os ns em geral representam objetos e os arcos representam as
relaes existentes entre eles. Dependendo do sistema, os ns podem ser utilizados para
representar predicados, classes, palavras de uma linguagem, etc. A representao do
conhecimento atravs de redes semnticas foi proposta por M.R. Quillian. Em artigo
intitulado Semantic Memory Quillian (1968) prope um modelo computacional da memria
humana. Nesse modelo os conceitos so representados por ns, e as relaes entre os
58
conceitos so representadas atravs dos arcos. Esse modelo tentava explicar diversos
resultados experimentais sobre o comportamento da memria humana, como, por exemplo, o
fato de que o reconhecimento de objetos que pertencem a classes mais numerosas toma mais
tempo do que o reconhecimento dos objetos pertencentes a classes menores.

Figura 17 Exemplo de rede semntica na representao do conhecimento
A Figura 17 mostra um exemplo simples da utilizao de redes semnticas. Ela
representa conceitos sobre moblia. As relaes -um so bastante comuns em sistemas de
redes semnticas e determinam uma herana de propriedades. As demais relaes (dono, cor,
estilo e material) so especficas do domnio e representam propriedades dos conceitos (Rich,
1988, p. 253):
Dois artigos publicados em 1975 tiveram grande influncia na pesquisa relacionada s
redes semnticas: o artigo de Woods (1975), que faz uma anlise do significado dos arcos nas
redes semnticas e o artigo de Minsky (1975), que apresenta o conceito de frames. Em seu
artigo, Woods chama a ateno para a necessidade de uma semntica formal que fundamente
os sistemas baseados em redes semnticas. Este artigo foi seguido de uma srie de outros que
descreviam a utilizao das redes semnticas apenas como uma notao sinttica alternativa
para frmulas lgicas; outros apresentavam as redes semnticas como um mtodo
independente de representao de conhecimento, utilizando o formalismo lgico apenas como
ferramenta para a definio de uma semntica para os ns e os arcos. O artigo de Minsky
introduziu a noo de ns com uma estrutura interna, os frames, criando uma nova forma de
representao de conhecimento.
A Figura 18 apresenta uma adaptao da Figura 17 utilizando o conceito de frames.
59

Figura 18 Exemplo da utilizao de frames na representao do conhecimento
Basicamente um frame uma coleo de atributos (slots), e valores a eles
associados. Cada frame representa uma classe ou uma instncia (elemento de uma classe). A
criao de um sistema de frames possvel graas ao fato que o valor de um atributo de um
frame pode ser um outro frame. Um sistema de frames pode assim definir uma hierarquia de
classes, como na Figura 18. A relao -um define uma relao transitiva de subclasse. A
relao instncia-de define a classe a qual um determinado elemento pertence Os frames
Moblia, Pessoa so exemplos de classes. O frame Cadeira tambm uma classe, mas
ainda uma subclasse de Moblia, e herda desta a propriedade estilo. Maria um elemento
(ou instncia) da classe Pessoa. O frame Cadeira da Maria uma instncia da classe
Cadeira.
John F. Sowa (2000) apresenta um estudo completo e detalhado sobre as diversas
formas de representao do conhecimento, e uma referncia obrigatria para quem deseja
aprofundar o assunto.
5.1.1 Sistemas Especialistas na recuperao de informao
A recuperao de informao um processo cuja eficincia depende em grande parte
do conhecimento sobre o assunto que se deseja pesquisar e sobre a estrutura de representao
dos documentos do corpus. Parece ento plausvel pensar que algum conhecimento necessrio
ao processo de recuperao de informao poderia ser incorporado a um sistema para que este
seja capaz de auxiliar no processo.
60
Um exemplo da utilizao de procedimentos tpicos dos sistemas especialistas na
recuperao de informao o sistema IOTA (Chiaramella et al, 1986). O sistema IOTA,
desenvolvido no Laboratoire Gnie Informatique de Grenoble, tem como uma de suas
caractersticas a sua habilidade de construir automaticamente uma base de conhecimento a
partir dos documentos do corpus (Chiamarella e Defude, 1987; Bruandet, 1987).
No sistema IOTA o processo de construo automtica da base de conhecimento
realizado atravs da identificao dos principais conceitos contidos nos textos dos
documentos do corpus. Esses conceitos so identificados utilizando-se clculos estatsticos de
co-ocorrncia de pares de palavras. A hiptese que est por trs dessa estratgia que se duas
palavras aparecem prximas em vrios documentos do corpus ento elas possuem um certo
relacionamento. O resultado desse processo um conjunto de conceitos representados por
grupos de palavras que caracterizam uma idia contida nos documentos do corpus. Esses
conceitos so integrados rede semntica que compe a base de conhecimento. Essa rede
semntica utilizada para melhorar a eficincia do sistema e auxiliar o usurio na formulao
de suas buscas. Para cada novo documento inserido no corpus altera-se a configurao da rede
semntica. Ferneda (1997) apresenta detalhadamente as tcnicas utilizadas para a construo
automtica de uma rede semntica a partir de um conjunto de documentos.
Outro sistema que utiliza alguns conceitos dos sistemas especialistas o sistema
RUBRIC (Tong et al, 1985; 1987). O sistema RUBRIC (Rule-Based Retrieval of Information
by Computer) utiliza frames e regras para representar conceitos relacionados com a
informao que o usurio espera recuperar. No sistema RUBRIC o usurio capaz de
construir sua prpria base de conhecimento sobre um determinado assunto atravs da
especificao e organizao de conceitos na forma de uma rede de frames. Para cada conceito
(frame) o usurio define um conjunto de regras do tipo se...ento que caracteriza o conceito.
Por exemplo, supondo que o usurio criou o conceito recuperao de informao e definiu o
seguinte conjunto de regras:
se recuperao e informao ento recuperao de informao (0.5)
se sentence recuperao e informao ento recuperao de informao (0.7)
Se um documento contm ambas as palavras recuperao e informao, ento
existe 50% de possibilidade (probabilidade) de que o assunto tratado por este documento
esteja relacionado recuperao de informao. Se as palavras recuperao e
61
informao estiverem em uma mesma sentena (sentence), essa probabilidade aumenta
para 70%.
importante no superestimar o potencial das tcnicas de recuperao de informao
baseados em conhecimento. Apesar de atualmente as pesquisas em representao do
conhecimento apresentarem grandes avanos, dificilmente uma mquina poder substituir
completamente a habilidade humana, mesmo em operaes que no envolvam conhecimentos
ou habilidades complexas. No entanto, as idias relacionadas aos sistemas especialistas
podem contribuir para a implementao de sistemas que abranjam reas do conhecimento
bastante especficas e em situaes nas quais os usurios e os sistemas possam se
complementar.
5.2 Redes neurais
Sabe-se que o crebro composto de bilhes de neurnios. Um neurnio uma clula
formada por trs sees com funes especficas e complementares: corpo, dendritos e
axnio. Os dendritos recebem informaes na forma de impulsos nervosos provenientes de
outras clulas e os conduzem at o corpo celular (soma), onde a informao processada e
novos impulsos so eventualmente transmitidos a outras clulas. A conexo entre o axnio de
um neurnio e uma clula vizinha chamada sinapse. Atravs das sinapses os neurnios se
unem formando as redes neurais. Cada neurnio pode ter entre mil e dez mil sinapses, o que
possibilita a formao de redes bastante complexas. As sinapses funcionam tambm como
vlvulas que controlam a transmisso de impulsos entre os neurnios da rede. A Figura 19
ilustra de forma simplificada as partes de um neurnio.

Figura 19 Representao simplificada de um neurnio
62
Os dendritos captam os estmulos recebidos em um determinado perodo de tempo e
os transmitem ao corpo do neurnio onde so processados. Quando tais estmulos atingirem
um determinado limite, o corpo da clula envia um novo impulso que se propaga pelo axnio
at as sinapses e da para as clulas vizinhas. Este processo pode se repetir atravs de vrias
camadas de neurnios. Como resultado, a informao de entrada processada podendo levar
o crebro a comandar reaes fsicas.
A habilidade de um ser humano em realizar funes complexas e principalmente a
capacidade de aprender advm do processamento paralelo e distribudo da rede de neurnios
do crebro. Os neurnios do crtex, a camada externa do crebro, so responsveis pelo
processamento cognitivo. Um novo conhecimento ou uma nova experincia pode levar a
alteraes estruturais no crebro. Tais alteraes so efetivadas atravs de um rearranjo das
redes de neurnios e reforando ou inibindo algumas sinapses (Haykin, 2001, p. 32-36).
5.2.1 Redes neurais artificiais
A busca por um modelo computacional que simule o funcionamento das clulas do
crebro data dos anos 40, com o trabalho de McCulloch e Pitts (1943). O entusiasmo pela
pesquisa neste campo cresceu durante os anos 50 e 60. Nesse perodo, Rosenblatt (1958)
props um mtodo inovador de aprendizagem supervisionada: o percepton. At 1969, muitos
trabalhos foram realizados utilizando o percepton como modelo. No final dos anos 60,
Minsky e Pappert (1969) publicam um livro no qual apresentam importantes limitaes do
perceptron. As dificuldades metodolgicas e tecnolgicas, juntamente com os ataques
extremamente pessimistas de Papert e Minsky, fizeram com que as pesquisas arrefecessem
nos anos seguintes. Durante os anos 70 a pesquisa contava apenas com um nmero nfimo de
cientistas. Mas nos anos 80 o entusiasmo ressurge devido a avanos metodolgicos
importantes e tambm graas aos avanos da cincia da computao.
O modelo de neurnio artificial da Figura 20 uma simplificao do modelo
apresentado por Haykin (2001, p. 36):
63

Figura 20 Modelo matemtico de um neurnio
Este modelo composto por trs elementos bsicos:
Um conjunto de n conexes de entrada (x1, x2, ..., xn), caracterizadas por pesos
(p1, p2, ..., pn);
Um somador () para acumular os sinais de entrada;
Uma funo de ativao () que limita o intervalo permissvel de amplitude do
sinal de sada (y) a um valor fixo.
O comportamento das conexes entre os neurnios simulado atravs de seus pesos.
Os valores de tais pesos podem ser negativos ou positivos, dependendo das conexes serem
inibitrias ou excitatrias. O efeito de um sinal proveniente de um outro neurnio
determinado pela multiplicao do valor (intensidade) do sinal recebido pelo peso da conexo
correspondente (x
i
p
i
). O somador efetua o somatrio dos valores x
i
p
i
de todas as
conexes e o valor resultante enviado para a funo de ativao, que define a sada (y) do
neurnio.
Combinando diversos neurnios forma-se uma rede neural. As redes neurais artificiais
so modelos que buscam simular o processamento de informao do crebro humano. So
compostas por unidades de processamentos simples, os neurnios, que se unem atravs de
conexes.
De uma forma simplificada, uma rede neural artificial pode ser vista como um grafo
onde os ns so os neurnios e as ligaes fazem a funo das sinapses, como exemplificado
na Figura 21:
64

Figura 21 Representao de uma rede neural artificial
As redes neurais se diferenciam pela sua arquitetura e pela forma como os pesos
associados s conexes so ajustados durante o processo de aprendizado. A arquitetura de
uma rede neural restringe o tipo de problema no qual a rede poder ser utilizada, e definida
pelo nmero de camadas (camada nica ou mltiplas camadas); pelo nmero de ns em cada
camada, pelo tipo de conexo entre os ns (feedforward ou feedback) e por sua topologia
(Haykin, 2001, p. 46-49).
5.2.2 Aprendizagem
Uma das propriedades mais importantes de uma rede neural a capacidade de
aprender atravs de exemplos e fazer inferncias sobre o que aprenderam, melhorando
gradativamente o seu desempenho. As redes neurais utilizam um algoritmo de aprendizagem,
cuja tarefa ajustar os pesos das conexes (Braga, Carvalho e Ludemir, 2000, captulo 2).
Existem duas formas bsicas de aprendizado de redes neurais: aprendizado
supervisionado e aprendizado no supervisionado. Para cada uma dessas formas existem
algumas variantes.
No aprendizado supervisionado um agente externo (professor) apresenta rede neural
alguns conjuntos de padres de entrada e seus correspondentes padres de sada. Portanto,
necessrio ter um conhecimento prvio do comportamento que se deseja ou se espera da rede.
Para cada entrada o professor indica explicitamente se a resposta calculada boa ou ruim. A
resposta fornecida pela rede neural comparada resposta esperada. O erro verificado
informado rede para que sejam feitos ajustes a fim de melhorar suas futuras respostas.
Na aprendizagem no supervisionada, ou aprendizado auto-supervisionado, no existe
um agente externo para acompanhar o processo de aprendizado. Neste tipo de aprendizagem
somente os padres de entrada esto disponveis para a rede neural. A rede processa as
65
entradas e, detectando suas regularidades, tenta progressivamente estabelecer representaes
internas para codificar caractersticas e classific-las automaticamente. Este tipo de
aprendizado s possvel quando existe redundncia nos dados de entrada, para que se
consiga encontrar padres em tais dados.
5.2.3 Redes Neurais na recuperao de informao
De uma forma simplificada, a recuperao de informao lida com documentos,
termos de indexao e buscas. Uma tarefa comum para um sistema de recuperao de
informao pesquisar documentos relevantes que satisfazem uma determinada expresso de
busca atravs dos termos de indexao. Pode-se dizer que em um sistema de recuperao de
informao de um lado esto as expresses de busca, do outro lado esto os documentos e no
meio ficam os termos de indexao. Essa estrutura pode ser vista como uma rede neural de
trs camadas: a camada de busca seria a camada de entrada da rede neural, a camada de
documentos seria a sada e a camada de termos de indexao seria uma camada central. A
Figura 22 mostra um exemplo genrico da aplicao das redes neurais na recuperao de
informao.

Figura 22 Representao de rede neural aplicada recuperao de informao
Os termos de busca (t
1
, t
7
, t
3
, t
9
) iniciam o processo de inferncia atravs da ativao
dos respectivos termos de indexao. Alguns termos da expresso de busca podem no fazer
parte do conjunto de termos de indexao, como o caso do termo t
7
e t
9
. Nesse caso, esses
termos no ativaro nenhum termo de indexao e, portanto, no sero considerados. Os
termos de indexao ativados pelos termos da busca enviam sinais para os documentos que
sero multiplicados pelos pesos de cada ligao ( p
1,1
, p
1,2
, ..., p
n,m
). Os documentos ativados
66
enviam sinais que so conduzidos de volta aos termos de indexao. Ao receberem estes
estmulos, os termos de indexao enviam novos sinais aos documentos, repetindo o processo.
Os sinais tornam-se mais fracos a cada iterao e o processo de propagao eventualmente
pra. O resultado final de uma busca ser o conjunto dos documentos que foram ativados,
cada qual com um nvel ativao, que pode ser interpretado como o grau de relevncia do
documento em relao busca. Entre os documentos resultantes podem aparecer documentos
que no esto diretamente relacionados aos termos utilizados na expresso de busca, mas que
foram inferidos durante a pesquisa e possuem um certo grau de relacionamento com a
necessidade de informao do usurio. A ativao do termo de indexao t
1
, por exemplo,
ativou a conexo com o documento d
2
. O documento d
2
por sua vez tambm ativou o termo t
2
,
que no fazia parte do conjunto de termos de busca. O termo t
2
poder ativar o documento d
n

que, dependendo do seu grau de ativao, pode vir a fazer parte do conjunto de documentos
recuperados.
Mozer (1984) foi o pioneiro na utilizao de tcnicas de redes neurais na recuperao
de informao. Ele utilizou uma arquitetura bastante simples que no empregava uma das
principais caractersticas das redes neurais que a capacidade de aprender. A Figura 23
mostra um exemplo apresentado por Ford (1991, p. 108), que utiliza a arquitetura de rede
neural idealizada por Mozer:

Figura 23 Exemplo de uma rede neural
A linhas contnuas representam ligaes excitatrias entre os termos de indexao e os
documentos. As linhas pontilhadas, que ligam pares de documentos, representam ligaes
inibitrias, isto , ligaes que reduzem a fora de associao entre os ns. Os termos de
indexao ativam os documentos que so indexados por eles e vice-versa. Um documento, ao
ser ativado, reduz o nvel de ativao dos demais documentos.
67
Utilizando uma expresso de busca que contm os termos programao e
lingstica, por exemplo, a rede neural da Figura 23 apresentar a seguinte seqncia de
ativao:

1. Inicialmente sero ativados os ns correspondentes aos termos de busca
(programao e lingstica). O termo programao ir ativar o documento
d
2
. O termo lingstica ativar os documentos d
4
e d
5
:


2. O documento d
2
ativar todos os termos de indexao usados para index-lo:
programao e computadores. Assim, o termo programao reforado e o
termo computadores ativado pela primeira vez. Os documentos d
4
e d
5
ativaro
o termo linguagem e reforar a ativao do termo lingstica. O documento d
5

ainda ativar tambm o termo cognio:
68

3. O termo computadores ativar os documentos indexados por ele. Assim o
documento d
2
reforado, e o documento d
1
ativado. O termo linguagem
reforar a ativao dos documentos d
4
e d
5
e ativar tambm o documento d
1
. O
termo cognio ativar o documento d
3
.
Este processo se propaga at uma estabilizao da rede neural, quando cessam as
ativaes entre seus ns.
O nvel de ativao de cada documento representa a sua relevncia em relao busca.
Os documentos d
2
, d
4
e d
5
, que foram ativados diretamente pelos termos de busca, tero um
nvel de ativao maior do que o documento d
3
, que indexado por um termo que foi
indiretamente ativado durante a busca (cognio).
Para que sejam apresentados resultados satisfatrios, os parmetros da rede neural
(pesos das conexes, funes de ativao, etc.) devem ser configurados de forma precisa.
Porm, o sistema pode compensar algumas inconsistncias na indexao e at possveis
imprecises nas expresses de busca dos usurios. Mozer enfatiza que a grande vantagem
deste modelo a habilidade em produzir resultados no esperados, recuperando documentos
que no possuem nenhum termo em comum com a expresso de busca, mas mesmo assim so
relevantes para o usurio. No exemplo apresentado, em resposta expresso de busca
contendo os termos programao e lingstica, o documento d
1
, que indexado pelos
termos computadores e linguagem, obteve um certo nvel de ativao (Ford, 1991, p.
109).
As ligaes entre os documentos so inibitrias, isto , um documento, quando
ativado, reduz o nvel de ativao dos demais. Isso causa uma competio entre os
documentos, fazendo com que apenas os documentos mais ativados durante o processo de
busca sejam efetivamente recuperados, reduzindo assim o nmero de documentos resultantes.
69
Ao final do processo de pesquisa, o grau de ativao de cada documento pode ser
utilizado como critrio de ordenamento dos itens resultantes. Os documentos com maior nvel
de ativao so geralmente aqueles que possuem todos os termos utilizados na expresso de
busca, seguidos dos documentos que possuem somente alguns dos termos de busca e dos que
foram apenas inferidos durante o processo de pesquisa.
Bein e Smolensky (1988) implementaram e testaram esse modelo de rede neural
proposta por Mozer, utilizando 12.990 documentos e 6.832 termos de indexao. Eles
avaliaram os resultados apresentados como satisfatrios, e sugerem novos testes utilizando
bases de dados maiores e com caractersticas diversas. Eles ressaltam tambm a necessidade
de um melhor conhecimento do funcionamento interno da rede neural para que seja possvel
identificar os parmetros que afetam o seu desempenho.
Como foi observado anteriormente, Mozer no utilizou uma das caractersticas mais
fortes das redes neurais, que a habilidade de aprender atravs da alterao dos pesos
associados s ligaes entre os ns. Um sistema mais recente, que explora tal habilidade das
redes neurais, o sistema AIR.
Desenvolvido por Belew (1989), o sistema AIR (Adaptative Information Retrieval)
utiliza uma arquitetura de rede neural composta de trs camadas que representam os termos de
indexao, os documentos e os seus autores. As ligaes so feitas entre os documentos e seus
autores e entre documentos e seus termos de indexao, como apresentado na Figura 24.

Figura 24 Arquitetura de rede neural do sistema AIR
Uma busca pode ser feita no apenas atravs da ativao dos termos de indexao,
mas por qualquer tipo de n (autor, documento ou termo de indexao), ou por alguma
combinao deles. Durante a pesquisa feita a ativao dos ns da rede e, quando o sistema
70
se estabiliza, os ns e as ligaes que foram inferidos so apresentados ao usurio. Em uma
interface apropriada o usurio poder atribuir um grau de relevncia para cada um dos itens
recuperados utilizando uma escala fixa com quatro nveis, variando do muito relevante ao
totalmente irrelevante. Este feedback utilizado na aprendizagem da rede neural, que
modifica os pesos associados s conexes entre seus ns.
Atravs da aprendizagem, o sistema busca gradualmente adequar os pesos das
conexes, a fim de melhor representar a relevncia percebida atravs da interao do usurio.
Segundo Ford (1991, p. 161-172), o sistema AIR implementa a noo de relevncia
consensual, que pode ser til para usurios no familiarizados com o domnio do corpus.
No existem evidncias conclusivas da superioridade das redes neurais em relao aos
modelos tradicionais de recuperao de informao. Porm, as redes neurais oferecem muitas
caractersticas atrativas no processo de recuperao de informao, principalmente a
habilidade inata de se adaptarem s modificaes nas condies do ambiente, representado
pelas buscas dos usurios (Doszkocs, Reggia e Lin, 1990).
5.3 Algoritmos genticos
Em 27 de dezembro de 1831, Charles Darwin zarpou a bordo do HMS Beagle para
uma viagem de pesquisa cujo roteiro inclua o litoral da Amrica do Sul, vrias ilhas do
Pacfico, a Austrlia e uma circunavegao no globo. Durante a viagem, Darwin observou que
medida que passava de uma regio para outra, uma mesma espcie animal apresentava
caractersticas diferentes. Notou ainda que entre as espcies extintas e as atuais existiam
traos comuns, embora bastante diferenciados. Tais fatos levaram-no a supor que os seres
vivos no eram imutveis como se pensava, mas que se transformam. Com base nestas
observaes, Darwin comeou a esboar a teoria da evoluo das espcies.
Na base da teoria evolucionista proposta por Darwin est a luta pela vida, segundo a
qual em cada espcie animal existe uma permanente concorrncia entre os indivduos. Os
mais adaptados ao ambiente tero maior probabilidade de sobreviver e procriar, e a prpria
natureza se incumbe de proceder a esta seleo (Strathern, 2001).
As idias gerais da teoria da evoluo das espcies sofreram, aos poucos, alteraes e
aperfeioamentos, mas as bases do evolucionismo subsistem at hoje e esto ligadas ao nome
71
de Darwin. No entanto, a teoria de Darwin no explicava como era feita a transmisso das
caractersticas dos pais para os filhos, a hereditariedade.
No ano de 1900 Hugo Vries deparou-se com alguns artigos publicados pelo monge
austraco Gregor Mendel. Embora seu trabalho tivesse sido ignorado durante sua vida,
Mendel, trabalhando com ervilhas, descobrira as leis da hereditariedade que revolucionaram a
biologia e traariam as bases da gentica.
Sabe-se hoje que todos os organismos vivos so constitudos de clulas que possuem o
mesmo conjunto de cromossomos. Os cromossomos so cadeias de DNA (cido
desoxirribonuclico) que servem como molde para fabricar seres vivos. Um cromossomo
formado por genes, blocos de DNA, que ditam os aspectos da hereditariedade dos
indivduos. Pode-se dizer que cada gene responsvel por uma caracterstica do ser vivo,
como a cor dos olhos, a cor dos cabelos, etc. Durante a reproduo, cada um dos pais passa
metade de seus cromossomos aos filhos, em um processo denominado crossover.
O material gentico pode sofrer mutaes decorrentes de operaes de crossover
imperfeitas ou de estmulos externos. Embora a ocorrncia de mutaes seja rara, ela tem
como conseqncia uma grande diversificao nas caractersticas de um indivduo ou at de
uma populao.
Sobre a casualidade da mutao age a seleo natural que seleciona caractersticas que
melhoram a adaptao dos organismos ao seu meio ambiente. Os indivduos mais adaptados
ao ambiente possuem mais chances de sobreviverem e se reproduzirem, transmitindo seu
material gentico para geraes futuras.
5.3.1 Evoluo computacional
Como se pode supor, os algoritmos genticos foram criados tendo como referncia a
teoria de Darwin sobre a evoluo dos seres vivos. Dessa forma, pode-se dizer que solues
obtidas atravs de algoritmos genticos so ditas evolutivas.
Um algoritmo gentico um processo repetitivo que mantm uma populao de
indivduos, que representam as possveis solues para um determinado problema. A cada
gerao os indivduos da populao passam por uma avaliao de sua capacidade em
oferecer uma soluo satisfatria para o problema. Essa avaliao feita por uma funo de
adaptao ou funo de fitness. De acordo com esta avaliao alguns indivduos, selecionados
72
de acordo com uma regra probabilstica, passam por um processo de reproduo, gerando uma
nova populao de possveis solues. Pressupe-se que a populao v gradativamente
ficando mais apta para solucionar o problema. A estrutura funcional de um algoritmo gentico
est representada na Figura 25.

Figura 25 Seqncia de execuo de um algoritmo gentico
Embora um algoritmo gentico nem sempre possa encontrar uma soluo tima para
um determinado problema, na maioria das vezes capaz de encontrar solues aceitveis para
problemas relativamente complexos.
A partir dos anos 80 os algoritmos genticos receberam um grande impulso em
diversas reas cientficas devido principalmente versatilidade e aos excelentes resultados
apresentados. A popularizao dos computadores e o aparecimento de sistemas cada vez mais
rpidos e potentes tambm ajudaram muito o seu desenvolvimento.
O ponto de partida para a utilizao de um algoritmo gentico na soluo de um
problema consiste em definir uma representao adequada dos indivduos (solues)
envolvidos no problema de maneira que o algoritmo possa oper-los. No algoritmo proposto
por Holland (1998), cada cromossomo representado por uma cadeia binria de tamanho
fixo, onde cada gene pode assumir o valor um ou o valor zero. Por exemplo:

73
Cromossomo 1
01001

Cromossomo 2
01110

Cromossomo 3
10000

Cromossomo 4
10110

Apesar da representao binria ser a mais utilizada, dependendo do tipo de aplicao
podem existir formas mais eficientes de representar os cromossomos, como a utilizao de
smbolos ou nmeros reais (Mitchell, 2002, p.156-158).
Feita a escolha de como os indivduos sero representados, o prximo passo definir
quantos e quais indivduos faro parte da populao inicial. A populao inicial pode ser
obtida atravs da gerao aleatria de indivduos, obedecendo a certas condies
estabelecidas pelo usurio, ou cada indivduo pode ser criado individualmente com objetivo
de gerar uma populao dentro de certo intervalo onde se acredita estar a resposta para o
problema.
O tamanho da populao (nmero de indivduos) pode afetar o desempenho global e a
eficincia dos algoritmos genticos. Populaes muito pequenas tm grandes chances de
perder a diversidade necessria para convergir para uma boa soluo do problema que se
deseja resolver. Por outro lado, se a populao tiver muitos indivduos o algoritmo poder
perder grande parte de sua eficincia pela demora no clculo da funo de adaptao de todos
os indivduos a cada iterao.
Para a populao inicial e a cada nova gerao ser necessrio calcular o grau de
adaptao de cada indivduo. Esse clculo feito atravs de uma funo de adaptao que
deve ser definida tendo em vista o tipo de problema a ser resolvido. A funo de adaptao
(tambm chamada de funo de fitness) deve refletir a qualidade de cada indivduo em
solucionar o problema. Uma funo de fitness bastante utilizada o Coeficiente de
Similaridade de Jaccard (van Rijsbergen, 1979). Esta funo calcula o valor da similaridade
entre duas seqncias binrias e definida como o nmero de posies com valor 1 em ambas
as seqncias, dividido pelo nmero de posies com valor 1 em pelo menos uma das
seqncias.
seqncias das uma menos pelo em 1 com posies de Quantidade
seqncias as ambas em 1 com posies de Quantidade

74
De acordo com a teoria de Darwin, os indivduos mais adaptados (com maior fitness)
ao meio ambiente tm maior chance de se reproduzirem. Para simular a casualidade da
seleo natural, um algoritmo gentico pode utilizar alguns mtodos para selecionar
aleatoriamente os indivduos que devero se reproduzir. Um dos mtodos mais utilizados
chamado de Roleta (Roulette Wheel).
No mtodo da Roleta, para cada indivduo da populao atribuda uma probabilidade
de reproduo proporcional ao seu fitness. Assim, quanto maior o fitness de um indivduo,
maior a possibilidade dele se reproduzir. Por exemplo:

N Cromossomo fitness percentual
1
01001
0.05 10%
2
01110
0.10 20%
3
10000
0.12 24%
4
10110
0.23 46%
total 0.50 100%


No exemplo acima, o cromossomo nmero 4 (10110) o mais adaptado e sua
chance de ser selecionado para reproduo de 46%. O cromossomo 01001 o menos
adaptado e sua chance de ser selecionado de apenas 10%.
O processo computacional da seleo assemelha-se a um sorteio feito atravs de uma
roleta onde esto representados todos os indivduos da populao. O tamanho de cada fatia
da roleta proporcional ao grau de adaptao (fitness) de cada indivduo.
A roleta girada 4 vezes, sorteando quatro indivduos que se reproduziro. Supondo
que os indivduos selecionados foram: 01110 (2), 10110 (4), 10110 (4) e 10000 (3),
observa-se que o cromossomo 4 foi selecionado duas vezes, o que coerente j que o valor de
seu fitness bastante superior aos demais. O cromossomo 1 no foi selecionado pois possui
baixo valor de fitness.
Com a utilizao da roleta, existe a probabilidade de o indivduo com o maior fitness
no se reproduzir. Uma estratgia alternativa roleta simplesmente manter sempre o
indivduo com maior fitness da gerao atual na gerao seguinte, estratgia conhecida como
seleo elitista. Outros mtodos de seleo so apresentados por Mitchell (2002, p. 166-171).
75
Definido o grupo de indivduos reprodutores, o prximo passo realizar a reproduo
propriamente dita, ou seja, o crossover. Em termos biolgicos, crossover significa efetuar
uma recombinao do material gentico dos pais, gerando novos indivduos filhos. Do
grupo de cromossomos reprodutores, dois pares so selecionados aleatoriamente. Para cada
par escolhido (tambm aleatoriamente) um ponto de diviso. Supondo-se que para o par de
cromossomos 01110 e 10110 foi escolhido para realizar crossover a partir do ponto de
diviso 1 e para o par 10110 e 10000 o ponto de crossover ser o ponto 3.

Pais Filhos
0 1 1 1 0 0 0 1 1 0

1 0 1 1 0

1 1 1 1 0

1 0 1 1 0 1 0 1 0 0

1 0 0 0 0

1 0 0 1 0

Os cromossomos resultantes da reproduo do primeiro par so 00111 e 11110. A
reproduo do segundo par resultou nos cromossomos 10100 e 10010.
Nesse exemplo foi utilizado o chamado crossover simples, com apenas um nico
ponto de diviso. Dependendo do tipo de problema possvel utilizar dois ou mais pontos de
diviso.
Durante o processo de reproduo, h uma probabilidade de mutao, que determina a
freqncia de ocorrncia da mutao. Para cada gene dentro de um cromossomo decidido se
uma mutao dever ou no ocorrer. Se a mutao for realizada, o valor do gene que est
sendo verificado ser alterado. Em cadeias binrias, um gene com valor 1 ter seu valor
alterado para 0, um gene com valor 0 ser alterado para 1. Por exemplo, o algoritmo decide
alterar o valor do bit (gene) da posio 4 do cromossomo 11110:

1 1 1 1 0 mutao 1 1 1 0 0

Aps a mutao obtm-se um novo conjunto de indivduos (cromossomos), uma nova
populao. O clculo do grau de adaptao de cada indivduo calculado e o processo se
repete.
76
Grande parte da capacidade dos algoritmos genticos provm do fato de existir um
conjunto de cromossomos muito diverso. As mutaes ajudam a prevenir a estagnao das
populaes, ajudando a preservar esta diversidade atravs das geraes.
5.3.2 Algoritmos Genticos na recuperao de informao
A aplicao dos algoritmos genticos na recuperao de informao representa um
novo modelo para todo o processo de recuperao. As representaes dos documentos podem
ser vistas como um tipo de cdigo gentico. Nesse cdigo gentico um cromossomo
representado por um vetor binrio onde cada elemento armazena o valor 0 ou o valor 1,
correspondendo respectivamente presena ou ausncia de um determinado termo na
representao do documento.
Gordon (1988) e Blair (1990) apresentam um modelo no qual cada documento
representado por um conjunto de cromossomos. Segundo Gordon, a inerente indeterminao
da representao de um documento pode ser interpretada como um tipo de variabilidade
gentica que permite aos documentos se adaptarem aos diferentes tipos de meio ambiente.
Entenda-se por meio ambiente o conjunto das buscas realizadas pelos usurios. No cdigo
gentico de um documento alguns cromossomos identificaro melhor a relevncia do
documento e outros descrevero melhor a sua no-relevncia. Aps execuo da busca, o
usurio seleciona os documentos que considera relevantes para sua necessidade de
informao. Durante esse processo, conhecido como relevance feedback, para um documento
considerado relevante as descries que foram responsveis pela sua recuperao recebem um
crdito pelo seu sucesso e as descries que no participaram de sua recuperao so
rebaixadas. Para um documento recuperado que no foi considerado relevante, as descries
que foram responsveis pela sua recuperao so rebaixadas e as demais descries recebem
um crdito.
A seguir ser apresentado um exemplo do processo de recuperao de informao
utilizando algoritmo gentico. Os documentos do corpus sero representados por um conjunto
de cromossomos, como utilizado por Gordon (1988). Porm sero feitas algumas
simplificaes no processo evolutivo para no sobrecarregar o exemplo com uma
quantidade excessiva de detalhes.
77
Na Figura 26 representado um corpus contendo seis documentos, sendo que cada
documento descrito de quatro diferentes maneiras atravs de quatro cromossomos
compostos por cinco genes. Um gene representa a presena (1) ou a ausncia (0) de um
determinado termo de indexao ( t
i
) na descrio do documento:

Figura 26 Corpus com documentos representados por quatro cromossomos
A cada busca do usurio ser calculado o coeficiente de Jaccard para cada um dos
cromossomos de cada um dos documentos. O grau de adaptao (fitness) de cada
cromossomo dado pela mdia dos coeficientes obtidos a cada busca. calculado tambm o
fitness do documento atravs da mdia do fitness de cada cromossomo.
Aps uma busca expressa atravs de uma seqncia binria, por exemplo, 01010, e
supondo que o documento Doc
1
tenha sido considerado relevante pelo usurio, este
documento

apresentar os seguintes valores:

expresso de busca: 01010

fitness
1 1 0 1 1 1 0.2 0.2
2 1 0 1 0 1 0.0 0.0
3 0 0 1 1 1 0.25 0.25
Doc
1

4 0 1 1 0 1 0.25 0.25

fitness do documento 0.175

Estes clculos so feitos para todos os documentos considerados relevantes pelo
usurio. O valor do fitness do documento pode ser utilizado no ordenamento do conjunto de
documentos resultante da busca. Os valores do fitness so utilizados para construir uma
roleta que fornecer a base para o processo de seleo: para cada cromossomo calculado o
78
percentual do fitness em relao ao total. Portanto, cada cromossomo ter chance de
reproduo proporcional ao seu fitness:

Cromossomo fitness percentual
1 10111
0.2 28.6%
2 10101
0.0 -
3 00111
0.25 35.7%
Doc
1

4 01101
0.25 35.7%
total 0.70 100%

O cromossomo 2, que possui fitness igual a zero, no ter representao na roleta e
no ser reproduzir. Os documentos com maior fitness tero mais chances de se reproduzir e
transmitir seus genes para as prximas geraes.
A roleta ser girada quatro vezes a fim de selecionar dois casais de cromossomos
para reproduo. Para cada casal o crossover executado utilizando uma posio escolhida
aleatoriamente. Supondo-se que para o documento Doc
1
foram escolhidos os casais 1-4 e 4-3,
e as posies 3 e 2, respectivamente, o crossover ser executado da seguinte forma:

1 1 0 1 1 1 1 0 1 0 1 1

posio = 3
4 1 0 1 0 1 1 0 1 1 1 2

4 1 0 1 1 1 1 0 1 0 1 3

posio = 2
3 1 1 1 0 1 1 1 1 1 1 4

Aps a reproduo, o documento Doc
1
ser representado por quatro novos
cromossomos, apresentados abaixo.
1 1 0 1 0 1
2 1 0 1 1 1
3 1 0 1 0 1
Doc
1
4 1 1 1 1 1

Como observado anteriormente, a capacidade dos algoritmos genticos provm da
diversidade. As mutaes ajudam a prevenir a estagnao das populaes, ajudando a
preservar esta diversidade atravs das geraes.
Aps a reproduo ser selecionado aleatoriamente um conjunto de cromossomos que
dever sofrer mutao. Para cada cromossomo ser escolhida, tambm aleatoriamente, a
79
posio (o gene) onde esta mutao ser efetuada. Utilizando ainda o documento Doc
1
como
exemplo, e supondo terem sido escolhidos os cromossomos 4 e 1 e os respectivos genes 3 e 4,
a mutao ser processada da seguinte forma:

posio = 3 4 1 1 1 1 1 1 1 0 1 1

posio = 4 1 1 0 1 0 1 1 0 1 1 1

O processo de mutao deve obedecer a certos critrios. Um ndice de mutao muito
alto destruir os indivduos mais adaptados, impedindo uma rpida evoluo da populao.
Aps a operao e mutao, o documento Doc
1
ser descrito por um novo conjunto de
cromossomos, apresentado abaixo:
1 1 0 1 1 1
2 1 0 1 1 1
3 1 0 1 0 1
Doc
1
4 1 1 0 1 1

Fecha-se assim um ciclo da evoluo do corpus, exemplificado atravs do documento
Doc
1
. Assim como o Doc
1
, todos os documentos do corpus tero o seu cdigo gentico
modificado em funo da expresso de busca do usurio.
Posteriormente, em uma nova busca expressa pela seqncia 10011, por exemplo, o
documento Doc
1
ter os seguintes valores:

expresso de busca: 01010 10011
fitness
1 1 0 1 1 1 0.2 0.75 (0.2+0.75)/2=0.475
2 1 0 1 1 1 0.0 0.75 (0.0+0.75)/2=0.375
3 1 0 1 0 1 0.25 0.5 (0.25+0.5)/2=0.375
Doc
1

4 1 1 0 1 1 0.25 0.75 (0.25+0.75)/2=0.5

fitness do documento 0.43125

O novo valor do fitness de cada cromossomo calculado atravs da mdia aritmtica
do fitness das diversas buscas realizadas. Para o documento Doc
1
, o grau de adaptao do
cromossomo 1 aps a primeira busca foi 0.2 e para essa segunda busca de 0.75. Portanto, o
novo valor do fitness desse cromossomo ser calculado pela mdia entre 0.2 e 0.75, o que
resulta 0.475. Esse clculo feito para todos os cromossomos de todos os documentos do
corpus. O fitness do documento calculado atravs da mdia dos fitness dos cromossomos
que representam o documento.
80
A aplicao dos algoritmos genticos na recuperao de informao se apresenta
apenas como uma possibilidade, uma proposio para futuras implementaes de sistemas
com caractersticas evolutivas. Os trabalhos prticos disponveis na literatura apresentam
apenas testes utilizando pequenos prottipos de sistemas, no determinando sua aplicabilidade
em sistemas reais (Gordon, 1988; Vrajitoru, 2000). Apesar da caracterstica evolutiva
representar uma forma inovadora de abordar o problema da recuperao de informao,
introduz diversos questionamentos relacionados aos efeitos de sua inerente imprevisibilidade
quando utilizado em situaes reais.
5.4 Concluso
Os modelos aqui denominados dinmicos representam um enfoque diferenciado em
relao aos modelos quantitativos, dando ao conjunto de usurios uma participao ativa na
representao dos documentos. Se por um lado essa caracterstica se mostra atrativa, por outro
lado restringe sua utilizao a pequenos grupos de usurios com interesses comuns ou ao
desenvolvimento de filtros de informao personalizados (Morgan e Kilgour, 1996). A
utilizao em grandes comunidades de usurios, com interesses variados, resultaria em uma
disperso das representaes dos documentos, eliminando a principal vantagem desses
modelos.
A complexidade de implementao dos modelos dinmicos deixa dvidas sobre sua
aplicabilidade em grandes corpora. A maioria dos experimentos apresentados em livros ou
artigos utiliza um ambiente controlado, com um conjunto reduzido de documentos. Tais
experimentos do nfase observao da evoluo das representaes dos documentos aps
um determinado nmero de interaes dos usurios. Portanto, o desempenho computacional
desses modelos em situaes reais pode ser considerado ainda uma incgnita.
81
6
6

Processamento da
Linguagem Natural

O Processamento da Linguagem Natural (PLN) surge como uma possvel soluo aos
problemas relacionados recuperao de informao pela simples observao de que os
documentos e as expresses de busca so objetos lingsticos. O PLN um conjunto de
tcnicas computacionais para a anlise de textos em um ou mais nveis lingsticos, com o
propsito de simular o processamento humano da lngua.
O desenvolvimento de sistemas de recuperao de informao que podem entender
os documentos exige tcnicas computacionais de grande complexidade. Por esta razo, na
maioria das vezes as tcnicas de PLN so utilizadas apenas na melhoria do desempenho de
algumas tarefas da recuperao de informao tradicional, como a indexao automtica
(Faloutsos e Oard, 1995).
Liddy (1998) classifica as tcnicas de PLN de acordo com o nvel da unidade
lingstica processada: fonolgico, morfolgico, lexical, sinttico, semntico, discurso e
pragmtico.
O nvel fonolgico o nvel da interpretao dos sons da fala, os fonemas. Ele de
maior interesse na implementao de sistemas de reconhecimento da fala onde possvel o
usurio exprimir verbalmente sua busca ou receber alguma forma de resposta audvel (Jones
et al, 1996; Hauptmann et al, 1998).
82
O nvel morfolgico est relacionado com a anlise de formas variantes de uma
determinada palavra atravs de seus componentes como prefixos, radicais e sufixos.
Exemplos de processamento morfolgico na recuperao de informao so as tcnicas
tradicionais de extrao de radicais (stemming), que visam substituir a variante de uma
palavra a uma forma normalizada.
O nvel lxical trata da anlise da estrutura e significado da palavra. Um exemplo de
processamento lexical nos sistemas de recuperao tradicionais a construo de listas de
palavras de pouco valor semntico como artigos e preposies. O nvel lexical est
relacionado com a gerao e uso de vocabulrios controlados na indexao de documentos e
para a formulao e expanso de expresses de busca.
No nvel sinttico busca-se determinar a estrutura sinttica das frases de um texto. Por
causa da enorme diversidade de estruturas frasais, a determinao precisa da estrutura de uma
frase requer conhecimento de alto nvel a um custo computacional relativamente alto. Por este
motivo o processamento sinttico pouco utilizado na recuperao de informao tradicional.
O nvel semntico busca interpretar o significado no s de palavras individuais, mas
tambm de expresses ou frases. A resoluo de ambigidades de palavras uma tarefa do
nvel semntico (e no do sinttico) porque tais ambigidades muitas vezes s podem ser
solucionadas no contexto de uma unidade textual maior como a frase ou o pargrafo onde a
palavra est posicionada. Algumas vezes a ambigidade s pode ser solucionada atravs de
um conhecimento do mundo real, seja ele genrico ou especfico do domnio.
Para os objetivos da recuperao de informao, o nvel discursivo examina a estrutura
e os princpios organizacionais de um documento para entender qual funo especfica de
uma informao em um documento, por exemplo uma concluso, uma opinio, uma
previso ou um fato? (Liddy, 1998, p.16).
O nvel pragmtico utiliza conhecimentos externos aos documentos e s buscas do
sistema. Este conhecimento pode ser um conhecimento geral do mundo, conhecimento
especfico para um determinado domnio ou ainda conhecimento sobre as necessidades dos
usurios, preferncias e objetivos na formulao de uma determinada expresso de busca.
Nas subsees seguintes ser discutida a utilizao do PLN em alguns problemas
clssicos da recuperao de informao. Deve ser ressaltado que, quase sem exceo, os
83
mtodos de PLN discutidos a seguir so utilizados em conjunto com os modelos quantitativos
(ou clssicos) (Lewis e Jones, 1996).
6.1 Normalizao de variaes lingsticas
O reconhecimento de variaes lingsticas encontradas em um texto permite, por
exemplo, o controle de vocabulrio (Jacquemin, Klavans e Tzoukermann,1997). A
normalizao lingstica pode ser subdividida em trs casos distintos: morfolgica, sinttica e
lxico-semntica.
A normalizao morfolgica ocorre quando h reduo dos itens lexicais atravs de
conflao a uma forma que procura representar classes de conceitos. Conflao (conflation)
a operao que combina a representao de dois ou mais termos em um nico, reduzindo
variantes de uma palavra a uma nica forma.
Os procedimentos mais conhecidos para conflao so:
stemming, reduz uma palavra ao seu radical (stem) atravs da eliminao de afixos
oriundos de derivao ou de flexo (Orengo e Huyck, 2001);
reduo forma cannica, processo tambm conhecido como lematizao
(lemmatization), que geralmente reduz os verbos ao infinitivo e os adjetivos e
substantivos forma masculina singular (Arampatzis, 2000).
No caso da forma cannica a categoria morfolgica original da palavra preservada.
J o processo de stemming pode resultar palavras de categorias diferentes. Por exemplo,
construo e construiremos seriam reduzidas a constru, no processo de stemming.
Utilizando a forma cannica teramos, respectivamente, construo e construir.
A normalizao sinttica ocorre quando h a normalizao de frases semanticamente
equivalentes em uma forma nica e representativa das mesmas, como trabalho eficiente e
rpido e trabalho rpido e eficiente.
A normalizao lxico-semntica ocorre quando so utilizados relacionamentos
semnticos (como a sinonmia, hiponmia) entre os itens lexicais para criar um agrupamento
de similaridades semnticas, identificado por um item lexical que representa um conceito
nico.
84
Podem-se encontrar duas formas de normalizao lexical. De um lado est a
normalizao morfolgica atravs do processo de stemming, que explora similaridades
morfolgicas. Em outro extremo est a normalizao lxico-semntica, por exemplo, atravs
de busca de sinnimos em tesauros, considerando informaes terminolgicas.
6.2 Identificao de termos compostos
Em um sistema de recuperao de informao geralmente termos compostos so
identificados para que possam tambm ser usados como termos de indexao, no se
limitando utilizao de palavras isoladas. Ser adotado a expresso termo composto para
identificar indistintamente sintagmas, termos complexos ou unidades lexicais
complexas.
Os termos compostos geralmente apresentam menor ambigidade e maior
especificidade do que os itens lexicais simples, permitindo uma maior aproximao com o seu
significado expresso no texto onde ocorrem. Nos sistemas de recuperao de informao os
termos compostos so geralmente identificados atravs de clculos de co-ocorrncia de pares
de palavras. A utilizao da anlise sinttica permite identificar termos compostos mesmo
quando as palavras que compem o termo no so adjacentes ou no co-ocorrem com grande
freqncia. Segundo Croft, Turtle e Lewis (1991), a extrao de termos compostos por meios
puramente sintticos freqentemente no apresenta bons resultados. Uma combinao de
tcnicas de PLN com mtodos estatsticos mais eficaz (Lewis, 1992).
Lewis e Jones (1996) notam que o grau de sofisticao do PLN poderia ser
consideravelmente maior para as expresses de busca dos usurios do que para os
documentos. Um motivo para isso seria a grande dificuldade no processamento dos
documentos de um corpus em relao a uma expresso de busca. Outro motivo seria a
importncia em entender quais so as necessidades do usurio; visto que geralmente as suas
expresses de busca so muito mais curtas (com poucos termos). Eventuais erros no
processamento dos documentos podem ser corrigidos (ou pelo menos compensados) levando
em conta outros termos extrados do mesmo documento, o que no possvel para uma
expresso de busca.
Algumas tcnicas comuns na recuperao de informao, como a utilizao de listas
de stopwords e a normalizao das variaes lingsticas dos termos (como visto
85
anteriormente), podem dificultar o julgamento de relevncia de um documento ou
descontextualizar um determinado termo (Riloff, 1995). Por exemplo, a presena do termo
morto em um documento no garante que o documento descreva um assassinato. Porm, a
frase morto a tiros possui uma conotao de crime. A presena do termo assassinato
(singular) em um documento um indicador de que o documento descreve um assassinato
especfico. J a presena do termo assassinatos (plural) pressupe que o texto descreva
diferentes assassinatos ou fale sobre assassinatos de uma forma geral. Preposies, formas
verbais, afirmaes positivas ou negativas, podem ser significantes para determinar o sentido
de uma frase. Um exemplo apresentado por Riloff mostra que o termo venture (aventura,
risco, iniciativa, aventurar-se) tomado isoladamente no um bom termo de indexao para
um documento que descreve um empreendimento conjunto entre empresas (joint venture).
No entanto o termo composto venture with ou venture between seriam bons termos de
indexao, j que as preposies with e between indicam uma noo de parceria.
6.3 Resoluo de ambigidade
A ambigidade a propriedade que faz com que um objeto lingstico, seja uma
palavra, um termo composto ou todo um texto, possa ser interpretado de modos diferentes.
Quanto ao nvel de processamento existem dois tipos de ambigidade: sinttica e semntica.
A ambigidade sinttica ocorre quando um item lexical pode pertencer a mais de uma classe
gramatical, como casa que pode ser substantivo ou verbo. Outras causas da ambigidade
sinttica so: mais de uma ligao possvel do sintagma preposicional, como em comprei um
cofre com dinheiro; a possibilidade de mais de uma coordenao ou conjuno, como em
tenho amigos e parentes muito queridos; ou a possibilidade de mltiplas combinaes para
substantivos compostos, como em lareira da casa de pedras (Smeaton, 1997).
Um exemplo de ambigidade semntica a que ocorre com o verbo passar, que
pode apresentar mais de um significado, como em passar a ferro, passar no exame e
passar em casa.
As causas da ambigidade podem ser dos seguintes tipos (Beardon, Lumsden e
Holmes, 1991):
lexical, que ocorre quando uma palavra pode possuir mltiplos significados;
86
estrutural, quando possvel mais de uma estrutura sinttica para a sentena,
podendo ser: local, quando a ambigidade pode ser resolvida dispensando o
conhecimento do contexto onde ela ocorre; ou global, quando exige anlise do
contexto para sua resoluo.
Por exemplo, na frase ele olhou o computador com esperana existe uma
ambigidade estrutural local. Neste caso o sentido expresso pela frase computador com
esperana pode, em princpio, ser descartada. Em ele olhou o colega com esperana h
ambigidade estrutural global, sendo possvel construir duas associaes diferentes: olhou
com esperana e colega com esperana.
Em relao ambigidade lexical devero ser ressaltados dois fenmenos lingsticos:
a homonmia e a polissemia (Krovetz, 1997; Krovetz e Croft, 1992).
A homonmia ocorre entre itens lexicais com significados diferentes que possuem o
mesmo som e a mesma grafia (homnimos perfeitos: como substantivo alvo e adjetivo
alvo), ou apenas o mesmo som (homnimos homfonos: como acento e assento), ou
apenas a mesma grafia (homnimos homgrafos: como o verbo seco e o adjetivo seco)
(Sacconi, 1999). Os homnimos homgrafos podem existir por possurem origem comum (o
adjetivo triangular e o verbo triangular), por coincidncia (vogal, a letra, e vogal, um
membro de jri) ou por derivao (substantivo procura, derivado do verbo procurar)
(Santos, 1996).
No caso da polissemia uma mesma palavra pode adquirir diferentes significados, como
no caso da palavra banco.
Ainda quanto ambigidade lexical, pode-se notar que alguns sentidos de algumas
palavras so mais especficos do que outros. Esta propriedade recebe o nome de vagueness
(impreciso, incerteza) (Allen, 1995). Assim, diferentes significados produzem diferentes
graus de incerteza. Por exemplo, dependendo do contexto, quando usada a palavra cavalos
pode-se ter incerteza quanto raa desses animais; j a palavra banco pode produzir
incerteza maior, podendo se tratar de uma instituio ou um mvel, entre outros significados.
Conforme o grau de incerteza, a ambigidade pode at ser insignificante, dependendo do
contexto da sentena.
87
Quanto ambigidade estrutural, as suas principais causas so problemas de
localizao dos sintagmas preposicionais, adverbiais ou das oraes relativas na estrutura de
uma sentena.
A resoluo da ambigidade lexical pode ter uma abordagem cognitiva ou lingstica.
A primeira procura investigar como fatores semnticos, sintticos e neuropsicolgicos podem
contribuir na resoluo deste tipo de ambigidade. A abordagem lingstica considera
estratgias em nvel sinttico e semntico. Em nvel sinttico, so levadas em considerao as
vizinhanas da palavra ambgua. J a abordagem semntica considera metodologias para
representao do conhecimento sobre os itens lexicais, necessitando especificar contextos ou
domnios restritos.
A resoluo da ambigidade sinttica requer decidir sobre diversas estruturas
provveis que representam sintaticamente a sentena analisada. Em alguns casos, somente
restries semnticas podem auxiliar a resoluo da ambigidade sinttica.
No contexto da Recuperao de Informao, Krovetz (1997) defende trs hipteses
relacionadas ambigidade lexical:
Hiptese 1. A resoluo da ambigidade lexical beneficia o desempenho da
recuperao de informao;
Hiptese 2. Os significados das palavras determinam uma separao entre os
documentos relevantes e no relevantes;
Hiptese 3. Mesmo em um corpus pequeno e de domnio especfico, h uma
proporo significante de ambigidade lexical.
A resoluo automtica de ambigidade constitui um problema complexo. As
abordagens para a resoluo de ambigidade na Recuperao de Informao podem ser
divididas em duas categorias principais:
baseadas em regras de co-ocorrncia ou de padres sintticos;
baseadas em informaes oriundas do corpus, de dicionrios ou de tesauros.
Gauch e Futrelle (1994) usam uma combinao de informaes para estabelecer
similaridades entre itens lexicais e definir classes de palavras. Estas classes so utilizadas para
resolver ambigidades de palavras da lngua inglesa terminadas em ed, indicando se so
verbos no particpio passado ou adjetivos.
88
Krovetz (1997) considera informaes provenientes de dicionrios como morfologia,
categoria gramatical e composio de termos como fontes de evidncia para a resoluo de
ambigidades. Krovetz parte do princpio segundo o qual as palavras podem diferir em
morfologia (exemplo: autorizo e autorizei), em categoria gramatical (exemplo:
diabtico, como substantivo ou adjetivo) ou quanto capacidade de ocorrer em termos
compostos (exemplo: base de dados), representando diferentes conceitos. Tais diferenas
so consideradas associadas s diferenas em significados e, em virtude disto, deve-se
estabelecer associaes entre tais variaes. Para atacar o problema, explorada a presena de
variantes de um termo na definio deste termo no dicionrio, alm de serem utilizadas
sobreposies de palavras em definies supostamente variantes.
Kaji et al (2000) procuram resolver a ambigidade de sintagmas nominais aliando
estatstica ao PLN. A ambigidade tratada ocorre quando um sintagma nominal pode ser
interpretado como P
1
(P
2
P
3
) ou como (P
1
P
2
)P
3
, como, por exemplo, casa de bairro grande,
em que podemos ter o adjetivo grande modificando casa ou bairro. Utilizando uma
regra simples, a estrutura determinada atravs da freqncia: se o componente P
2
P
3
ocorre
mais freqentemente, ento a estrutura P
1
(P
2
P
3
) ser a preferida; caso contrrio (P
1
P
2
)P
3
ser a
escolhida.
6.4 Concluso
O Processamento da Linguagem Natural (PLN) no se caracteriza como um modelo de
recuperao de informao, na medida em que no prope uma estrutura para a representao
dos documentos e no formaliza explicitamente uma funo de busca, como apresentado no
Captulo 3. Porm, atravs do PLN que a Recuperao de Informao se aproxima do
arsenal metodolgico da Inteligncia Artificial e viabiliza solues para alguns de seus
problemas.
Obviamente, espera-se que as tcnicas de PLN se mostrem mais efetivas nas etapas do
processo de recuperao de informao em que a qualidade dos resultados depende de uma
interpretao adequada das entidades textuais, que so, por um lado, os documentos do corpus
e, por outro lado, a expresso de busca do usurio, assumindo que esta seja enunciada em
linguagem natural.
89
O PLN aplicado s expresses de busca de um sistema de recuperao de informao
assume uma importncia considervel na medida em que tenta interpretar a necessidade de
informao dos usurios. Porm, essa tarefa dificultada pelo tamanho (nmero de palavras)
reduzido das expresses de busca que geralmente so utilizadas pelos usurios, no
permitindo uma interpretao adequada das expresses.
A utilizao mais importante do PLN est, portanto, na interpretao do contedo dos
documentos, a fim de gerar uma representao adequada destes. No entanto, o PLN no
elimina a necessidade da utilizao de mtodos estatsticos e deve ser visto como uma
ferramenta complementar aos mesmos.
Os procedimentos envolvidos no PLN esto geralmente restritos a uma determinada
lngua como o ingls, o alemo ou, em menor proporo, o portugus. Essa limitao, aliada
ao custo relativamente alto do PLN, um fator que diminui sua atratividade, considerando
que os mtodos estatsticos (quantitativos) envolvem menor custo e geralmente so adaptveis
a diversas lnguas.

90
7
7

Recuperao de Informao
na WEB

A historia da Internet de certa forma uma verso acelerada da histria da imprensa,
desde o invento de Gutenberg at o offset. Essa histria pode ser contada a partir da Guerra
Fria, perodo histrico que teve seu incio no ps-guerra. Em 1957, em resposta ao sucesso do
programa espacial sovitico representado pelo lanamento do Sputnik, os Estados Unidos
criaram o Departamento de Defesa (DoD) e a ARPA (Advanced Research Projects Agency).
Em 1969, o DoD promoveu a criao de um sistema de comunicaes que permitisse
interligar computadores dos principais centros da ARPA. Surgiu assim a ARPAnet, uma rede
de computadores que deveria continuar funcionando mesmo se algum dos computadores
sofresse um ataque nuclear.
A ARPAnet inicialmente interligava quatro centros de computao: a Universidade da
Califrnia, em Los Angeles e em Santa Brbara, o Instituto de Pesquisa de Stanford e a
Universidade de Utah, em Salt Lake City. Em 1973 as primeiras conexes internacionais
foram montadas, conectando a ARPAnet University College em Londres e ao Royal Radar
Establishment, na Noruega. A partir de 1975 outras redes foram criadas por instituies de
pesquisa e empresas privadas. Essas redes acabaram por criar uma comunidade, que trocava
entre si informaes atravs de uma verso primitiva do atual correio eletrnico, embora no
houvesse ainda a possibilidade de comunicao entre as diversas redes. No incio dos anos 80
a ARPA adotou o TCP/IP (Transfer Control Protocol / Internet Protocol), um protocolo que
91
facilitava a comunicao entre redes de computadores. Com a utilizao do TCP/IP por
diversas instituies de pesquisa, uma "rede de redes" estava se formando, permitindo que
milhares de usurios compartilhassem suas informaes: a Internet. Os interesses militares da
ARPAnet foram transferidos para uma nova rede, a MILnet, extinguindo-se ento a ARPAnet.
Em 1992 a Internet j conectava um milho de computadores e alcanou reas
comerciais, fora da esfera acadmica. Foram ento criados o ARCHIE (um sistema de busca
em arquivos) e o GOPHER (um sistema de busca de informao que utiliza menus e
diretrios).
Desde 1989 Tim Berners-Lee comeara a desenvolver uma tecnologia para
compartilhamento de informao usando documentos textuais que se referenciavam atravs
de ligaes. O objetivo inicial era construir uma ferramenta de comunicao baseada na
Internet para compartilhar informao com diferentes universidades em todo o mundo.
Berners-Lee criou uma linguagem de marcao baseada na j bem sucedida SGML (Standard
Generalized Markup Language) e batizou-a de HTML (HyperText Markup Language). Ele
tambm desenvolveu protocolos de comunicaes para formar a espinha dorsal do seu novo
sistema de informaes em hipertexto, o qual denominou World Wide Web, ou simplesmente
Web. Em 1994, Berners-Lee fundou o W3C (World Wide Web Consortium), uma organizao
destinada a padronizar e desenvolver tecnologias de domnio pblico para a Web.
A Web a face hipertextual da Internet e hoje considerada como a maior fonte de
informao nas principais reas do conhecimento. O seu uso intensivo aliado ao seu
crescimento exponencial vem mudando diversos aspectos da sociedade contempornea.
7.1 Caractersticas da Web
A Web formada por um conjunto de unidades de informao chamadas pginas.
Uma pgina um arquivo de computador cujo tamanho (quantidade de caracteres) pode variar
desde o tamanho de uma pgina de um livro at o tamanho de um livro inteiro. Essas pginas
possuem as seguintes caractersticas comuns:
92
Esquema de endereamento chamado Universal Resource Locator (URL);
Protocolo, o Hypertext Transfer Protocol (http), que permite que um programa no
computador do usurio requisite uma pgina (atravs de sua URL) ao computador
onde a pgina est localizada (servidor ou host). O servidor responde requisio
enviando uma cpia da pgina ao computador do usurio;
Padro para a especificao da estrutura da pgina, Hypertext Markup Language
(HTML), uma linguagem de marcao que permite definir diferentes componentes
em uma pgina Web.
Uma URL o endereo de um arquivo acessvel atravs da Internet. Como
exemplificado na Figura 27, uma URL uma cadeia de caracteres formada por componentes
padronizados, em uma ordem especfica.

Figura 27 Partes de uma URL
A URL http://www.eca.usp.br/graduaca/infogera/index.htm identifica um arquivo
que deve ser acessado utilizando o protocolo da Web (http://) e que est armazenado no
computador chamado www.eca.usp.br, e cujo domnio (.br), indicando que este
computador est localizado no Brasil. No diretrio (ou pasta) /graduaca/infogera/ deste
computador est localizado o arquivo com o nome index.htm. A extenso .htm indica que
se trata de um arquivo no formato HTML.
Atualmente a maioria das pginas Web est escrita na linguagem HTML. Esta
linguagem de marcao possui um conjunto pr-definido de cdigos chamados tags usados
para definir componentes relacionados com a aparncia e com a funcionalidade das pginas
como ttulo, autor, resumo, figuras, etc. Uma pgina HTML pode conter tags que
especifiquem URLs de outras pginas. Essas ligaes (links) entre pginas formam uma
estrutura de complexidade arbitrria, o que explica o uso do termo Web (teia). A Figura 28
mostra o contedo de um arquivo HTML e o resultado de sua apresentao em um programa
de navegao na Web, conhecido como Browser.

93
<html>
<header>
<title>O Mundo Grande</title>
</header>
<body>
<b>O Mundo Grande</b><p>
O mundo grande e cabe<p>
nesta janela sobre o mar.<p>
O mar grande e cabe<p>
na cama e no colcho de amar.<p>
O amor grande e cabe<p>
no breve espao de beijar.<p>
<b>Carlos Drummond<b>
<a href=http://www.carlosdrummond.com.br>Home Page
</body>
</html>
O Mundo Grande
O mundo grande e cabe
nesta janela sobre o mar.
O mar grande e cabe
na cama e no colcho de amar.
O amor grande e cabe
no breve espao de beijar.
Carlos Drummond Home Page
Figura 28 Exemplo de um arquivo HTML e sua visualizao
A linguagem HTML possui um conjunto fixo de tags que permitem a definio da
aparncia da pgina. Um documento HTML um arquivo textual puro, que pode ser criado a
partir de qualquer editor de texto. Apesar de sua simplicidade, a linguagem HTML permite a
utilizao de um grande nmero de recursos, como a criao de pginas com vrias janelas
(frames), a utilizao de imagens e tabelas e a definio de ligaes entre pginas Web.
O arquivo HTML apresentado na Figura 28 possui uma ligao (hiperlink ou link)
para a pgina de URL http://www.carlosdrummond.com.br. O fato de uma pgina Web
poder apontar para outra pgina pressupe algum tipo de semelhana entre essas pginas.
Porm, no existe uma regra geral que assegure tal semelhana.
Embora a Web, tipicamente baseada em pginas HTML, no imponha qualquer
estruturao semntica, possvel um agrupamento conceitual de pginas a partir de
determinados pontos de vista. Uma pgina P
1
pode referenciar uma outra pgina P
2
por esta
tratar do mesmo assunto de P
1
. Em P
1
pode existir tambm uma referncia pgina P
3
por
esta tratar de um aspecto especial do assunto tratado em P
1
. Desta forma, as URLs podem
criar uma elaborada rede de citaes por assunto, autor, instituio, etc.
Os links so unidirecionais, consistem de pares virtuais (no esto fisicamente
armazenados) de URLs de origem e destino e so inseridos no corpo das prprias pginas.
Conseqentemente, no possvel, por exemplo, determinar quais so as pginas que
referenciam uma pgina especfica. Segundo pesquisadores da rea de hipertexto, uma
soluo para esse problema seria a especificao (cadastramento) dos links num contexto
exterior e independente das pginas, o que, por um lado, implicaria na criao de servidores e
94
bases de dados de ligaes, mas por outro lado acrescentaria uma nova dimenso aos recursos
de busca da Web (Kappe, 1991; Andrews, Kappe e Maurer, 1995). Nesta perspectiva, a Web,
alm de disponibilizar informaes, permitiria tambm a gesto das relaes entre essas
informaes. O deslocamento dos ns da rede para as ligaes entre os ns aponta para uma
viso extremamente contempornea dos sistemas de acesso informao na medida em que
incorpora o mutvel (as ligaes entre informaes) ao fixo (acervo de informaes
disponveis).
Uma URL pode apontar para um arquivo que no est no formato HTML. Neste caso,
ser necessrio algum programa adicional para apresentar o contedo desse arquivo: um
editor de texto, um programa grfico, etc. Uma URL pode referenciar tambm um arquivo
que no pode ser acessado atravs do protocolo HTTP pelo fato de o computador onde o
arquivo est armazenado no ser um servidor Web. Neste caso algum outro tipo de servidor
deve ser usado para recuperar o arquivo. O servidor no-Web mais comum o FTP.
Um grande nmero de arquivos textuais ou binrios (imagens, sons, vdeos, etc.) esto
disponveis para transferncia (download) atravs de um servidor FTP (File Transfer
Protocol). Os arquivos em um site FTP geralmente esto organizados em uma estrutura
hierrquica de diretrios (ou pastas) e arquivos. Esta estrutura pode ser visualizada por um
usurio da Internet atravs de um browser. Qualquer arquivo que o usurio achar interessante
(talvez pelo nome desse arquivo), pode ser recuperado. Esses arquivos no so pginas Web,
e, portanto, no contm links para outras pginas ou arquivos. A nica forma de busca que
pode ser feita em um site FTP a navegao em sua estrutura hierrquica. Na Figura 29
apresentado o diretrio inicial do servidor FTP do Instituto de Fsica da USP
(ftp://ftp.if.usp.br)
95

Figura 29 Diretrio de um servidor FTP apresentado em um Browser
7.2 Mecanismos de busca
Grande parte dos mecanismos de busca encontrados na Web de uso geral. Esses
mecanismos, chamados de search engines, sites de busca ou portais, permitem ao usurio
submeter sua expresso de busca e recuperar uma lista (geralmente ordenada) de endereos de
pginas (URLs) que presumivelmente so relevantes para a sua necessidade de informao.
Em um acervo extremamente grande como a Web essencial uma indexao
antecipada de seus documentos (pginas). A maioria dos mecanismos de busca da Web gera
ndices. Pelo carter dinmico da Web esses ndices devem permanecer em constante
processo de atualizao. Existem duas alternativas bsicas para a criao de ndices:
O ndice pode ser construdo manualmente por indexadores profissionais. A
vantagem bvia est na utilizao da insubstituvel capacidade humana em julgar
relevncia e categorizar documentos, refletindo diretamente na qualidade do
ndice gerado e, conseqentemente, na preciso da recuperao, desde que exista
algum tipo de controle de vocabulrio.
O ndice pode ser gerado automaticamente, permitindo uma cobertura mais ampla
e rpida das pginas Web.
96
7.2.1 Indexao Manual
Alguns mecanismos de busca empregam indexadores profissionais que especificam
uma hierarquia de assuntos, similar s classificaes encontradas em uma biblioteca
tradicional, como a Classificao Decimal de Dewey (CDD), e indexam as pginas Web
utilizando tais categorias.
Um exemplo de mecanismo de busca que utiliza indexao manual o Yahoo!
(www.yahoo.com.br). A eficincia do Yahoo! depende em grande parte de voluntrios para
obter URLs para seu banco de dados. O autor de uma pgina Web pode cadastrar a URL de
sua pgina associando a ela uma ou mais categorias que descrevem o assunto tratado na
pgina. No cadastramento da pgina, o usurio fornece um ttulo, um texto curto descrevendo
a pgina e a URL da pgina que ser cadastrada.
Algumas caractersticas do Yahoo! so:
Cada categoria de assunto tambm uma pgina Web. A pgina de uma
determinada categoria formada por um conjunto de links para as pginas
relacionadas quela categoria e um conjunto de links para sub-categorias. A Figura
30 apresenta a pgina da sub-categoria Biblioteconomia e Cincia da
Informao. A primeira lista de links aponta para pginas das sub-categorias. Em
seguida apresentada uma lista de links para pginas ou sites que esto
diretamente ligadas categoria Biblioteconomia e Cincia da Informao;
97

Figura 30 Pgina Yahoo! referente categoria Biblioteconomia e Cincia da Informao
Uma URL submetida ao Yahoo! pode ser associada a uma categoria de qualquer
nvel. Por exemplo, ela pode ser ligada a uma categoria principal, Cincia, ou
subcategoria, Cincias Humanas, ou sub-subcategoria, Biblioteconomia e
Cincia da Informao.
Os funcionrios do Yahoo! avaliam os dados de cada URL cadastrada, podendo
alterar os dados fornecidos pelo usurio.
Caso um usurio no consiga encontrar uma categoria apropriada para descrever
sua pgina, ele pode sugerir uma nova categoria. Os profissionais do Yahoo!
podem aceitar, rejeitar ou modificar as sugestes dos usurios.
O mtodo utilizado pelo Yahoo! possui inevitveis desvantagens mas tambm muitas
vantagens. J que o Yahoo! depende do cadastramento voluntrio de pginas, sua cobertura da
Web inevitavelmente incompleta e irregular. Se o usurio deseja fazer uma busca de um
determinado assunto que no se enquadra em qualquer categoria existente, ou uma
combinao de categorias, o resultado obtido no ter a preciso esperada. Por outro lado, se a
busca do usurio est relacionada diretamente a uma das categorias existentes, de se esperar
uma alta preciso no resultado. Alm disso, uma pgina indexada pelo Yahoo! geralmente
98
possui links para outras pginas relevantes sobre um determinado assunto, sendo, portanto,
um bom recurso para comear uma pesquisa na Web.
7.2.2 Indexao Automtica
Outros mecanismos de busca, tais como o AltaVista (www.altavista.com) e o Excite
(www.excite.com), indexam automaticamente as pginas da Web. A indexao automtica
realizada atravs de duas etapas:
1. Seleo de endereos (URLs) de pginas;
2. Indexao das pginas, gerando para cada uma um conjunto de termos de
indexao.
As pginas Web esto distribudas em um imenso e dinmico conjunto de sites. Alm
do texto, cada uma dessas pginas contm um conjunto de links que apontam URLs de outras
pginas. Existem programas que viajam atravs da Web a fim de selecionar URLs de
pginas de potencial interesse para que sejam indexadas. Utilizando a metfora da Web, esses
programas so chamados de spiders (aranhas) ou ainda robs, crawlers ou worms. Partindo de
uma lista inicial de URLs, esses robs rastreiam a estrutura hipertextual da Web colhendo
informao sobre as pginas que encontram.
A estrutura da Web complexa. Diferentes sites ou regies da Web podem estar
estruturadas de acordo com princpios organizacionais diferentes. Alguns sites podem ter uma
estrutura profunda, isto , com vrios nveis de links. Outros sites podem apresentar uma
estrutura mais ampla, com grande nmero de links para pginas de diferentes sites. Em sites
com estrutura profunda um rob, que tente rastrear todas as suas pginas, pode gastar muito
tempo para percorr-los, reduzindo o tempo para percorrer outros sites.
Duas estratgias podem ser adotadas pelos robs para rastrear as pginas da Web: uma
chamada breadth-first e outra chamada deep-first. A primeira visa maximizar a amplitude da
pesquisa descendo apenas poucos nveis de cada site. A segunda estratgia visa maximizar a
profundidade buscando um maior detalhamento do assunto tratado pelo site.
Quando uma nova pgina recuperada, o rob extrai todas as URLs dessa pgina e os
adiciona na sua base de dados. Para aumentar a velocidade de cobertura da Web podem ser
usados vrios robs trabalhando em paralelo, cada um cobrindo uma regio ou um domnio
diferente da Web e enviando suas URLs para a base de dados.
99
Um rob salva todas as URLs que descobre. Ele pode usar algumas caractersticas da
URL ou da prpria pgina para determinar se a pgina merece ou no ser indexada. Os
critrios usados para essa seleo geralmente no so documentados ou tornados pblicos
pelas empresas. Algumas URLs podero ser descartadas ou porque apontam para pginas que
no existem mais ou porque apontam para pginas protegidas por senha.
Com freqncia um rob poder descobrir URLs que j fazem parte de seu banco de
dados. Portanto, uma importante caracterstica da construo de um banco de dados de URLs
a remoo de URLs duplicadas. Um problema adicional que uma mesma pgina pode ser
replicada em diversos sites ou um mesmo site pode ser referenciado por vrias URLs
diferentes (apelidos). Assim, no suficiente eliminar URLs duplicadas; importante
reconhecer se duas pginas acessadas por diferentes URLs so idnticas. Existem algoritmos
que permitem detectar semelhanas no s entre pginas Web, no formato HTML, mas
tambm entre arquivos de formatos diferentes.
Depois de formado o banco de dados de URLs o rob poder acessar cada pgina e
index-la usando mtodos de indexao automtica. Esses mtodos de indexao tambm no
so revelados pelas empresas, o que compromete a avaliao do processo de recuperao dos
sites de busca.
Um recurso adicional na indexao das pginas Web a utilizao das tags para
restringir a indexao das pginas a determinados componentes, ou ainda para atribuir pesos
diferentes a termos localizados em diferentes componentes da pgina. Por exemplo, poderia
ser dado um peso maior a uma palavra localizada entre as marcas de ttulo (<title>
</title>).
Os diferentes mecanismos de busca baseados em robs podem variar no tipo de
pginas que indexam. Como foi dito anteriormente, nem todas as URLs apontam pginas
Web, formatadas em HTML. Alguns mecanismos indexam tambm pginas Gopher, FTP ou
pginas de texto simples, no formatado.
Apesar de sua pretensa modernidade, sabe-se que grande parte dos mecanismos de
busca utiliza tcnicas de indexao desenvolvidas nos anos 60. Alguns utilizam stop lists para
eliminar palavras comuns, de pouco valor semntico como preposies, artigos, conjunes,
etc. Outros utilizam tcnicas estatsticas ou processamento de linguagem natural para atribuir
100
pesos s palavras. Existem tambm mecanismos que utilizam tcnicas de extrao de radicais
(stemming) para normalizar os termos de indexao.
A maioria dos mecanismos de busca constri e armazena um resumo de cada pgina
em suas bases de dados. Em muitos casos este resumo formado por uma quantidade fixa de
palavras ou caracteres a partir do incio do texto.
O AltaVista indexa os termos de uma pgina pela posio relativa no componente
HTML onde o termo aparece. Isto permite elaborar expresses de busca utilizando operadores
de proximidade e buscas restritas a um determinado componente ou rea da pgina.
Apesar da variedade de critrios usados pelos mecanismos de busca para construir
seus ndices, os termos de indexao so na maioria das vezes palavras ou frases contidas nas
pginas. O Excite difere da maioria dos mecanismos por utilizar um mtodo de indexao
chamado Latent Semantic Indexing (LSI) que cria um ndice de conceitos, estatisticamente
derivados por co-ocorrncia de suas palavras (Deerwester et al, 1990).
7.2.3 Especificao de busca
A maioria dos sites de busca dispe de dois nveis de especificao da expresso de
busca: bsico e avanado. O nvel bsico permite geralmente a utilizao de palavras
combinadas logicamente por operadores booleanos. A maioria dos sites permite tambm a
definio de frases atravs da delimitao de uma seqncia de palavras utilizando aspas.
Alm das buscas booleanas, o nvel avanado oferece recursos mais sofisticados. O
WebCrawler (www.webcrawler.com), por exemplo, oferece os operadores NEAR e ADJ.
Uma expresso do tipo a NEAR/n b especifica que o termo a e o termo b deve ter n
palavras entre elas. A expresso a ADJ b especifica que a palavra a deve aparecer seguida
da palavra b, nesta ordem. No AltaVista o operador NEAR no permite que o usurio
especifique a proximidade. A expresso de busca a NEAR b retornar URLs de pginas
onde aparecem as palavras a e b com no mximo 10 palavras entre a e b.
Alguns mecanismos de busca utilizam listas de palavras de pouco valor semntico
como artigos e preposies, embora geralmente essas listas de palavras no sejam
disponibilizadas. Outros mecanismos geram essas listas estatisticamente com palavras que so
encontradas com muita freqncia nas pginas Web. Existem mecanismos que permitem a
utilizao de mscaras. No Altavista, por exemplo, possvel utilizar o asterisco (*) no
101
incio e final de uma palavra, ou no meio, desde que precedido de pelo menos trs caracteres.
Assim, a expresso livr* pode encontrar URLs de pginas onde apaream as palavras
livro, livraria, livreiro. A expresso inter*o recuperar pginas que possuem a
palavra interveno, internacionalizao, interao, interseo, ou qualquer outra
palavra que comece com inter e termine com o. Em alguns casos pode-se querer
especificar que a busca deve ser feita utilizando a palavra exatamente da forma como foi
informada, sem admitir derivaes. No Lycos, por exemplo, ao elaborar a expresso de busca
possvel utilizar o caractere ponto (.) no final de uma palavra para indicar que a busca
deve se limitar palavra, sem derivaes. Assim, uma expresso de busca com a palavra
escolar seguida de um ponto, encontrar referncias que exatamente a palavra escolar e
no escolaridade, por exemplo.
A estrutura da Web permite a implementao de alguns recursos que consideram sua
organizao. O Hotbot (www.hotbot.com), por exemplo, permite restringir a busca a um
determinado domnio, como por exemplo .br para especificar pginas localizadas no Brasil
ou .edu para restringir a busca a pginas de entidades educacionais. O Hotbot tambm
permite restringir a busca s pginas que contenham arquivos de um determinado tipo de
mdia. Por exemplo, uma busca utilizando a expresso biblioteca AND usp e page content
.jpg recuperar pginas nas quais aparecem as palavras biblioteca e usp e que
contenham alguma imagem do tipo JPEG.
Como resultado de uma busca, o site apresenta uma lista ordenada de endereos de
pginas (URLs) que atendem expresso de busca. Esse ordenamento feito atravs da
utilizao de algum mtodo de clculo efetuado entre a expresso de busca e o contedo da
pgina, como nos modelos discutidos no Captulo 3. Os primeiros itens que aparecem na lista
so os que presumivelmente possuem maior relevncia para a necessidade de informao do
usurio. Dada a grande quantidade de pginas que podem ser recuperadas, quase
imprescindvel a utilizao de alguma forma de ordenamento. As empresas no divulgam os
mtodos (algoritmos) utilizados para esse ordenamento; sabe-se, porm, que alguns sites do
peso maior para os termos menos comuns na Web. Alguns sites atribuem maior importncia
(peso) aos termos da expresso de busca que aparecem em determinadas posies da pgina.
O Lycos e o InfoSeek do peso maior aos termos que aparecem no ttulo de uma pgina. O
AltaVista d peso maior quanto mais prximo do incio da pgina um termo estiver
102
localizado. O InfoSeek, o AltaVista e o HotBot atribuem pesos aos termos baseados na
freqncia com que eles ocorrem na pgina.
Atravs do processo denominado relevance feedback (realimentao por relevncia) o
usurio identifica, no conjunto de documentos inicialmente recuperados, algum subconjunto
de documentos que so relevantes. O sistema ento extrai os termos comuns a esse
subconjunto de documentos e os acrescenta na expresso de busca, refinando-a. Esse
processo, tambm conhecido como busca por documentos similares, pode ser repetido vrias
vezes at que o usurio consiga um conjunto de documentos que o satisfaa. O problema
central desse processo est na seleo de caractersticas comuns dos documentos relevantes e
o clculo de pesos para tais caractersticas no contexto da nova busca. Os mecanismos de
busca da Web fornecem uma forma limitada de relevance feedback, permitindo ao usurio
escolher uma pgina que atenda s suas necessidades e comande a busca de pginas
semelhantes mesma. O Google (www.google.com.br), aps apresentao dos itens
resultantes de uma busca, permite especificar uma nova expresso e efetuar a busca apenas
nesses itens recuperados.
Como mencionado anteriormente, o Excite indexa suas pginas utilizando um mtodo
chamado Latent Semantic Indexing. Esse mtodo de indexao acrescenta ao Excite alguns
recursos de busca diferenciados. Uma busca utilizando a expresso financiamento especial a
pequenas empresas, por exemplo, ao invs de recuperar apenas documentos que contenham
cada uma destas palavras ou a frase inteira, recuperar tambm documentos que contenham os
termos pequenas empresas e trabalhadores autnomos. Isso porque durante o processo de
indexao estabeleceu-se uma relao entre os termos pequenas empresas e trabalhadores
autnomos. A cada novo documento que indexado, o sistema melhora progressivamente
seu conhecimento sobre os termos de indexao e suas relaes.
7.2.4 Meta buscas
Um nico mecanismo de busca no consegue cobrir todo o espao informacional da
Web. Diferentes mecanismos possuem diferentes algoritmos de coleta de URLs e variam no
nmero de robs que utilizam e a freqncia com que rastreiam a Web. Por esse motivo
ocorre uma grande diferena no conjunto de URLs que cada mecanismo coleta e na maneira
como extrai os termos que iro compor seus ndices. Eles podem diferir tambm na forma
como so processadas as buscas dos usurios e como so ordenados e apresentados os
103
resultados. Por esse motivo, para se realizar uma busca exaustiva de uma determinada
informao necessrio a utilizao de vrios mecanismos para se garantir a cobertura de
uma boa parte da Web. Este seria um processo extremamente trabalhoso.
Para resolver este problema, alguns mecanismos fazem suas buscas utilizando diversos
outros mecanismos de busca. Nesses meta-buscadores, ou meta-mecanismos, o usurio define
sua expresso de busca como em qualquer site de busca. Essa expresso de busca traduzida
e enviada para cada um dos mecanismos que o meta-buscador gerencia. As buscas so ento
executadas e cada mecanismo retornar uma lista ordenada de URLs. O meta-buscador agrega
estas listas em uma nica lista de URLs, eliminando possveis duplicaes e a exibe ao
usurio.
Um exemplo de meta-buscador o MetaCrawler (www.metacrawler.com). O
MetaCrawler unifica em uma nica interface diversos mecanismos de busca. O MetaCrawler
possui sua prpria interface e oferece aos usurios alguns recursos para elaborarem suas
buscas. Se algum recurso disponvel no MetaCrawler no est presente em algum dos
mecanismos de busca que gerencia, o MetaCrawler pode alterar a busca para adequ-la aos
recursos oferecidos pelo mecanismo. Caso isso no seja possvel, simplesmente aquele
mecanismo no ser acionado para realizar aquela busca.
Os meta-mecanismos so programas menores que os mecanismos de busca, pois no
precisam utilizar robs e no mantm um banco de dados de URLs. Todo o trabalho pesado
fica a cargo dos mecanismos de busca. Uma tarefa especfica dos meta-mecanismos a
eliminao de itens (URLs) repetidos e a reordenao dos resultados fornecidos por seus
mecanismos. Como os meta-mecanismos so programas relativamente simples, algumas
empresas agregam a eles alguns recursos adicionais para melhorar seu desempenho, como,
por exemplo, a possibilidade de definio de filtros personalizados que eliminam
automaticamente determinados itens no desejados ou URLs que endeream pginas que no
mais existem.
Ao utilizarmos um site de busca percebe-se que, mesmo com os diversos recursos
oferecidos, na maioria das vezes a preciso dos resultados fica longe do ideal. Apesar do
grande nmero de itens encontrados, a maior parte dos mesmos no se enquadra
perfeitamente necessidade de informao. Alguns nem mesmo dizem respeito ao assunto
procurado. Com sorte so encontradas referncias que se aproximam do que realmente se
procura, aps uma verificao de cada item recuperado. Um dos motivos dessa baixa preciso
104
est no fato de a maioria dos mecanismos de busca ignorar as marcaes das pginas HTML,
considerando apenas o seu texto. Alguns mecanismos de busca consideram tais marcaes,
possibilitando uma busca restrita, por exemplo, ao ttulo ou autor da pgina. Porm, as tags da
linguagem HTML esto relacionadas apenas com o aspecto visual da pgina e no
atribuio de significado informao nela contida. Essa limitao da linguagem HTML
reflete diretamente na qualidade da informao recuperada, e motivou a criao da linguagem
XML, que vem se tornando o novo padro de pginas da Web.
7.3 A linguagem XML
A grande aceitao da linguagem HTML fez com que ela se tornasse o padro para a
construo de pginas da Web. Porm, com o passar do tempo e apesar de constantes
atualizaes, surgiram novas exigncias de mercado no atendidas pelas caractersticas da
linguagem HTML. Visando resolver as limitaes da HTML, em 1996 especialistas se uniram
para a definio de um novo padro de linguagem de marcao. A principal caracterstica
dessa nova linguagem deveria ser a possibilidade de se definir um nmero ilimitado de tags.
Um desenvolvedor de pginas Web poderia definir suas prprias tags quando necessrio, em
vez de ficar restrito ao esquema de marcao da HTML. Essa nova linguagem conhecida
com a sigla XML (eXtensible Markup Language).

HTML XML
<html>
<body>
Micromputador Pentium 4, 1.5 GHz,
256MB de RAM, Monitor 17 polegadas,
mouse, teclado, estabilizador.
</body>
</html>
<microcomputador>
<modelo>Pentium 4</modelo>
<velocidade>1.5 GHz</velocidade>
<ram>256Mb de memria</ram>
<monitor>17 polegadas</monitor>
<teclado>Sim</teclaco>
<mouse>Sim</mouse>
<estabilizador>Sim</estabilizador>
<impressora>No</impressora>
</microcomputador>
Figura 31 Comparao entre as linguagens HTML e XML
A Figura 31 apresenta uma definio de uma pgina HTML e uma pgina XML.
Apesar da finalidade das duas pginas (HTML e XML) ser a de apresentar as caractersticas
de um microcomputador, a linguagem XML possibilita discriminar cada uma das
caractersticas e apresentar o dado relacionado caracterstica. Se, por exemplo, a pgina
105
XML fosse de um site de uma loja de computadores permitiria a seus consumidores obterem
uma busca mais refinada do microcomputador que desejasse adquirir.
Em uma fase anterior criao de um documento XML, geralmente define-se a
estrutura ou uma sintaxe desse documento atravs de um esquema. A especificao de um
esquema, embora opcional, importante para manter a consistncia do documento XML,
permitindo verificar sua validade frente ao esquema previamente definido. Existem dois
principais tipos de esquemas: DTD e XML Schema.
A DTD (Document Type Definition) um arquivo do tipo texto onde esto definidas
as tags, a ordem em que elas devem aparecer no documento XML e sua obrigatoriedade.
Essas definies so feitas com a utilizao de uma meta-linguagem cuja sintaxe difere
significativamente da sintaxe XML, como pode ser visto na Figura 32. Na maioria das vezes
dois documentos, XML e DTD, trabalham em conjunto em uma pgina da Web. Com a ajuda
da DTD, o browser consegue verificar todos os detalhes do documento XML e informar
alguma inconsistncia.

DTD (arquivo: livro.dtd)
<!ELEMENT livro (titulo,genero?,autor+,editora)>
<!ELEMENT titulo (#PCDATA)>
<!ELEMENT genero (#PCDATA)>
<!ELEMENT autor (nome, dtnasc)>
<!ELEMENT nome (#PCDATA)>
<!ELEMENT dtnasc (#PCDATA)>
<!ELEMENT editora (#PCDATA)>

XML
<!DOCTYPE livro SYSTEM "livro.dtd">
<livro>
<titulo>A Rosa do Povo</titulo>
<genero>poesia</genero>
<autor>
<nome>Carlos Drummond de Andrade</nome>
<dtnasc>1902-10-31</dtnasc>
</autor>
<editora>Jos Olympio</editora>
</livro>
Figura 32 Exemplo de utilizao de uma DTD em um documento XML
Na DTD da Figura 32, armazenada em arquivo de nome livro.dtd, definido um
elemento principal livro. A especificao de um livro feita atravs de seu ttulo, gnero,
autores e editora. A interrogao (?) aps a palavra genero indica que a especificao do
106
gnero do livro ser opcional. O sinal de mais (+) aps a palavra autor indica que um livro
pode ter um ou mais autores.
No documento XML feito inicialmente o vnculo com o arquivo livro.dtd atravs
da declarao !DOCTYPE. No arquivo livro.dtd est a definio da estrutura do
documento XML com o qual este documento ser validado.
Uma outra linguagem para a especificao de esquemas a XML Schema. A
linguagem XML Schema, apesar de ter a mesma funo da DTD, possui muitas caractersticas
que a torna mais poderosa (e mais complexa) do que a DTD. Com a XML Schema possvel
no apenas especificar a sintaxe de um documento XML, mas tambm especificar os tipos de
dados de cada elemento desse documento. possvel tambm reutilizar a definio de
elementos de outros esquemas, criar tipos de dados personalizados, especificar o nmero
mnimo e mximo de vezes que um elemento pode ocorrer, criar listas e grupo de atributos
(Furgeri, 2001). De fato, as definies feitas em XML Schema so elas prprias documentos
XML. Desta forma, aplicaes desenvolvidas para XML podem tambm ser aplicadas s
definies de esquemas da linguagem XML Schema.

107
DTD
<!ELEMENT livro (titulo,genero?,autor+,editora)>
<!ELEMENT titulo (#PCDATA)>
<!ELEMENT genero (#PCDATA)>
<!ELEMENT autor (nome, dtnasc)>
<!ELEMENT editora (#PCDATA)>
<!ELEMENT nome (#PCDATA)>
<!ELEMENT dtnasc (#PCDATA)>

XML Schema
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="livro">
<xs:complexType>
<xs:sequence>
<xs:element name="titulo" type="xs:string"/>
<xs:element name="genero" type="xs:string"/>
<xs:element name="autor" type="TAutor" minOccurs="1"/>
<xs:element name="editora" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:complexType name="TAutor">
<xs:sequence>
<xs:element name="nome" type="xs:string"/>
<xs:element name="dtnasc" type="xs:date"/>
</xs:sequence>
</xs:complexType>
</xs:schema>
Figura 33 Comparao entre DTD e XML Schema
Na Figura 33 apresentada uma comparao entre a DTD e a XML Schema. A XML
Schema possui a mesma sintaxe da linguagem XML, apresenta explicitamente a hierarquia
dos elementos do documento e permite definir o tipo desses elementos. Existem alguns tipos
pr-definidos como string, date, float, etc., mas pode-se definir tipos complexos atravs do
agrupamento de vrios elementos. Na Figura 33 foi definido o tipo TAutor que composto
pelos elementos nome (do tipo string) e dtnasc (do tipo date). Um livro, como
especificado na XML Schema, deve ter pelo menos um (1) autor. Esta restrio definida
pela declarao minOccurs.
Na primeira linha de um documento XML Schema definido um endereo Web onde
esto definidos os elementos da sintaxe da prpria linguagem XML Schema: schema, element,
sequence, complexType, string, etc. Este endereo conhecido como namespace, e pode ser
identificado pela expresso xmlns. O uso de namespaces aumenta a flexibilidade da
linguagem XML Schema permitindo a reutilizao de definies feitas em outros esquemas.

108
XML Schema (http://sites.uol.com.br/ferneda/livro.xsd)
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="livro">
<xs:complexType>
<xs:sequence>
<xs:element name="titulo" type="xs:string"/>
<xs:element name="genero" type="xs:string"/>
<xs:element name="autor" type="TAutor" minOccurs="1"/>
<xs:element name="editora" type="xs:string"/>
</xs:sequence>
</xs:complexType>
</xs:element>
<xs:complexType name="TAutor">
<xs:sequence>
<xs:element name="nome" type="xs:string"/>
<xs:element name="dtnasc" type="xs:date"/>
</xs:sequence>
</xs:complexType>
</xs:schema>

XML
<livro xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://sites.uol.com.br/ferneda/livro.xsd">
<titulo>A Rosa do Povo</titulo>
<genero>poesia</genero>
<autor>
<nome>Carlos Drummond de Andrade</nome>
<dtnasc>1902-10-31</dtnasc>
</autor>
<editora>Jose Olympio</editora>
</livro>
Figura 34 Exemplo de utilizao de um XML Schema em um documento XML
A primeira linha do documento XML especifica o namespace e o esquema (XML
Schema) que ser utilizada para validar o documento. No exemplo da Figura 34, o documento
XML referencia o arquivo com endereo http://sites.uol.com.br/ferneda/livro.xsd.
A linguagem XML est se tornando padro na criao de pginas Web e, graas sua
flexibilidade, ela a base para a criao de diversas outras linguagens. Ao final do ano 2000
existiam cerca de 500 linguagens de uso especial baseadas na XML e, como ser visto a
seguir, esta linguagem desempenha um papel fundamental na construo da Web Semntica
(Daum e Merten, 2002).
possvel traar um paralelo entre a linguagem XML e a norma ISO 2709. A ISO
2709 (Document Format for bibliographic interchange on magnetic tape), criada em 1973,
estabelece o conceito de registro, campos, caractersticas associadas aos campos (campo
109
repetitivo, campo numrico, etc.), ordem dos campos e tags para identificao dos campos, de
forma semelhante linguagem XML.
A ISO 2709 um formato de transmisso de dados projetado para ser utilizado por
aplicaes de um determinado domnio. Esta norma foi criada em um contexto particular, no
qual os softwares de bibliotecas precisavam trocar dados atravs de arquivos seqenciais,
geralmente fitas magnticas. Da mesma forma, a linguagem XML est sendo ajustada para o
mesmo objetivo, em um ambiente extremamente complexo que caracteriza a sociedade
contempornea. Particularmente, o formato MARC (juno da ISO 2709 com um conjunto de
elementos de metadados) vem sendo muito utilizado como padro em especificaes XML.
7.4 Web Semntica
Com o objetivo de melhorar a recuperao de informao em grandes repositrios
como a Web, pesquisas atualmente em curso esto buscando encontrar formas de possibilitar
a agregao de um maior nvel semntico s pginas Web. Procura-se aumentar a eficincia
dos mecanismos de busca e de outros tipos de ferramentas de processamento automtico de
documentos atravs da utilizao de linguagens que permitam definir dados e regras para o
raciocnio sobre esses dados. Este grande desafio a proposta da Web Semntica (Daconta,
Obrst, e Smith, 2003).
Para a realizao da Web Semntica so necessrias linguagens que permitam no
apenas a definio de dados atravs de marcaes, mas que possibilitem tambm descrever
formalmente estruturas conceituais que possam ser utilizadas pelos agentes (robs) de
indexao dos mecanismos de busca.
O World Wide Web Consortium (W3C), atravs de Tim Berners-Lee, definiu uma
estrutura em camadas que reflete os passos que devem ser dados para que o projeto da Web
Semntica seja realizado de uma forma incremental (Figura .35).
110

Figura 35 Arquitetura da Web Semntica
A primeira camada refere-se ao conjunto de pginas Web que utilizam a linguagem
XML e suas respectivas definies estruturais feitas atravs da linguagem XML Schema.
Como visto anteriormente, a linguagem XML permite definir documentos Web com
marcaes personalizadas, garantindo um maior nvel semntico em relao s pginas
HTML. A linguagem XML Schema permite formalizar a estrutura de pginas XML e valida-
las, garantindo que estejam corretamente definidas. Estas duas linguagens (XML e XML
Schema) j esto consolidadas e o nmero de documentos cresce rapidamente.
Apesar de a camada XML XML Schema constituir um slido alicerce, ela no faz
parte da Web Semntica. A definio da Web Semntica inicia-se de fato com a camada
RDF-RDF Schema e a cada nova camada aumenta-se o nvel de abstrao de seus
componentes.
Os prximos tpicos sero abordados seguindo (de baixo para cima) cada camada da
estrutura da Web Semntica apresentada na Figura 35, iniciando-se pela camada RDF-RDF
Schema.
7.4.1 A camada RDF-RDF Schema
A semntica da linguagem XML um subproduto da definio da estrutura de um
documento. Portanto, a estrutura e a semntica se confundem no interior de um documento
XML. A linguagem denominada Resource Description Framework (RDF) fornece um meio
de agregar semntica a um documento sem se referir sua estrutura. A RDF visa oferecer
uma forma eficiente de descrever metadados na Web, possibilitando a interoperabilidade entre
aplicaes que compartilham metadados.
A RDF est baseada em trs tipos de objetos: recurso (resource), propriedade
(property) e declarao (statement). Um recurso qualquer objeto da Web que possui
111
um endereo, como, por exemplo, uma pgina HTML ou XML identificada por uma URL.
Uma propriedade uma caracterstica, um atributo ou uma relao usada para descrever um
recurso. Um recurso, juntamente com uma propriedade e seu valor denominado declarao.
Essas trs partes de uma declarao so chamadas respectivamente de sujeito (subject),
predicado (predicate) e objeto (object).
Para exemplificar, vamos considerar a seguinte sentena:
Ulrich Schiel o criador do recurso http://www.dsc.ufpb.br/~ulrich
Conforme a definio da linguagem RDF, essa sentena (declarao) dividida nas
seguintes partes:

Sujeito (recurso) http://www.dsc.ufpb.br/~ulrich
Predicado (propriedade) Criador
Objeto Ulrich Schiel

A sentena utilizada no exemplo poderia ser representada na forma de um grafo:

Utilizando a linguagem RDF a sentena seria representada como:

<rdf:RDF xmlns="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:s="http://description.org/schema/">
<rdf:Description about=http://www.dsc.ufpb.br/~ulrich>
<s:Creator>Ulrich Schiel</s:Creator>
</rdf:Description>
</rdf:RDF>

As primeiras linhas de um documento RDF especificam endereos (namespaces) onde
so encontradas a descrio da sintaxe da linguagem RDF e a descrio do esquema utilizado
no documento.
Supondo que se deseja apresentar algumas caractersticas do criador de um recurso,
exemplificado pela seguinte sentena:
O recurso http://www.dsc.ufpb.br/~ulrich foi criado pelo professor de nmero 32412
chamado Ulrich Schiel e cujo endereo de e-mail schiel@ufpb.br

O modelo RDF para esta sentena pode ser representado pelo seguinte grafo:
112


O cdigo RDF para esta sentena :

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:s="http://description.org/schema/">
<rdf:Description about="http://www.dsc.ufpb.br/~ulrich">
<s:Creator>
<rdf:Description about="http://www.ufpb.br/profs/32412">
<v:Name>Ulrich Schiel</v:Creator>
<v:Email>schiel@ufpb.br</v:Email>
</rdf:Description>
</s:Creator>
</rdf:Description>
</rdf:RDF>

A linguagem RDF define um modelo para descrever relacionamentos entre recursos
atravs de suas propriedades e valores. Porm, a RDF no fornece mecanismos para declarar
essas entidades nem para definir tais relacionamentos. Para esse objetivo foi desenvolvida a
linguagem RDF Schema.
A RDF Schema uma linguagem capaz de definir um sistema de classes extensvel e
genrico que pode ser utilizado como base para a descrio conceitual de um domnio
especfico.
Para exemplificar, sero definidas a seguir as classes Autor, Publicao e Livro. A
classe Livro pode ser definida como uma subclasse de Publicacao. Esse relacionamento entre
classes especificado atravs da propriedade subClassOf. A classe Autor possui duas
propriedades: nome e dtnasc. A propriedade nome definida como sendo do tipo string,
podendo receber qualquer cadeia de caracteres. A propriedades dtnasc do tipo date e deve
conter apenas datas vlidas. A Figura 36 apresenta uma representao grfica da classe
Autor, seguida de sua definio na linguagem RDF Schema.

113

<rdfs:Class rdf:ID="Autor">
rdfs:subClassOf rdf:resource="http://www.w3.org/2000/01/rdf-schema#"/>
</rdfs:Class>

<rdf:Property rdf:ID="nome">
<rdfs:domain rdf:resource="#Autor"/>
<rdfs:range rdf:resource="http://www.w3.org/TR/xmlschema-2/#string"/>
</rdf:Property>

<rdf:Property rdf:ID="dtnasc">
<rdfs:domain rdf:resource="#Autor"/>
<rdfs:range rdf:resource="http://www.w3.org/TR/xmlschema-2/#date"/>
</rdf:Property>
Figura 36 Definio RDF Schema da classe Autor
Toda classe deve ser necessariamente derivada de uma classe hierarquicamente
superior. A classe Autor derivada da classe de mais alto nvel definida pelo recurso
http://www.w3.org/2000/01/rdf-schema#.
A Figura 37 apresenta a definio da classe Publicao, que possui duas propriedades:
ttulo e gnero, ambas do tipo string.


<rdfs:Class rdf:ID="Publicacao">
<rdfs:subClassOf resource="http://www.w3.org/2000/01/rdf-schema#"/>
</rdfs:Class>

<rdf:Property rdf:ID="titulo">
<rdfs:domain rdf:resource="#Publicacao"/>
<rdfs:range rdf:resource="http://www.w3.org/TR/xmlschema-2/#string"/>
</rdf:Property>

<rdf:Property rdf:ID="genero">
<rdfs:domain rdf:resource="#Publicacao"/>
<rdfs:range rdf:resource="http://www.w3.org/TR/xmlschema-2/#string"/>
</rdf:Property>
Figura 37 Definio RDF Schema da classe Publicao
114
A classe Livro uma subclasse da classe Publicao e, alm das propriedades
herdadas desta, possui duas propriedades especficas: ISBN e editora. Existe tambm uma
relao entre Livro e Autor representada pela propriedade escreve. Na Figura 38
apresentado um diagrama da classe Livro e a sua codificao em RDF Schema.


<rdfs:Class rdf:ID="Livro">
<rdfs:subClassOf rdf:resource="#Publicacao"/>
</rdfs:Class>

<rdf:Property rdf:ID="ISBN">
<rdfs:domain rdf:resource="#Livro"/>
<rdfs:range rdf:resource="http://www.w3.org/TR/xmlschema-2/#integer"/>
</rdf:Property>

<rdf:Property rdf:ID="editora">
<rdfs:domain rdf:resource="#Livro"/>
<rdfs:range rdf:resource="http://www.w3.org/TR/xmlschema-2/#string"/>
</rdf:Property>

<rdf:Property rdf:ID="escreve">
<rdfs:domain rdf:resource="#Autor"/>
<rdfs:domain rdf:resource="#Livro"/>
</rdf:Property>
Figura 38 Definio RDF Schema da classe Livro
Definida a estrutura de classes, podem-se associar a ela recursos (resources) na forma
de instncias de uma ou mais classes. A Figura 39 apresenta um exemplo simplificado de um
documento RDF no qual definida uma instncia da classe Autor.

115

<Autor rdf:about="http://www.carlosdrummond.com.br">
<nome>Carlos Drummond de Andrade</nome>
<dtnasc>1902-10-31</dtnasc>
<escreve>
<Livro>
<titulo>A Rosa do Povo</titulo>
<genero>Poesia</genero>
<editora>Jose Olympio</editora>
<ISBN>8501061360</ISBN>
</Livro>
</escreve>
</Autor>
Figura 39 Documento RDF definido a partir de um RDF Schema
Apesar de haver muitos esforos concentrados na evoluo da linguagem RDF, h
ainda muito por se fazer para que ela esteja consolidada. A linguagem RDF ainda muito
pouco conhecida, at porque muito nova, mas espera-se que, assim com a linguagem XML,
ela se fortalea para que o projeto da Web Semntica se realize.
7.4.2 A camada de Ontologias
A camada de ontologias aproveita a extensibilidade da linguagem RDF Schema para
definir estruturas que se assemelham aos frames, como visto no Captulo 5.
Na maioria das vezes uma ontologia toma a forma de uma rvore hierrquica de
classes, de maneira que cada classe herda as caractersticas de uma ou mais classes superiores.
Cada classe representa um conceito do domnio que est sendo modelado, e seu significado
expresso pelas suas propriedades, similaridades e diferenas em relao aos outros conceitos.
No contexto da Cincia da Informao este recurso utilizado em larga medida, denominado
plano de classificao ou tesauro.
116
Os relacionamentos entre conceitos devem ser definidos de maneira clara e sem
ambigidade para um correto processamento por sistemas computacionais. Alm disso,
importante que os usurios possam visualizar e entender uma ontologia. Por isso algumas
abordagens suportam a modelagem de ontologias em vrias camadas, onde a camada superior
corresponde ao que um ser humano consegue entender facilmente. Desta maneira o usurio
poder percorrer a ontologia a fim de modific-la ou consult-la. J a camada inferior deve ser
definida mais formalmente para que possa ser compreendida pelo computador. As camadas
intermedirias se constituem de mapeamentos entre as camadas superiores, menos formais, e
as camadas inferiores, mais formais.
Alm do significado dos conceitos e suas relaes, uma ontologia pode conter tambm
axiomas que definem regras sobre os relacionamentos entre os conceitos. Por exemplo, um
axioma pode definir se um relacionamento entre dois conceitos simtrico ou no.
Algumas abordagens no s fornecem meios para a modelagem e armazenamento de
ontologias, mas tambm tentam automatizar pelo menos parcialmente este processo atravs da
utilizao de ferramentas de aprendizado automatizado de conceitos. Geralmente essas
ferramentas analisam pginas Web de sites relacionados ao domnio da aplicao a fim de
extrair uma terminologia do domnio. Posteriormente, as informaes obtidas so filtradas e
os relacionamentos so apreendidos (Maedche e Staab, 2000).
Existem algumas linguagens especficas para a modelagem de ontologias. Uma delas
a linguagem OIL. OIL (Ontology Inference Layer) uma linguagem criada para representar a
semntica de determinados domnios atravs da definio de uma estrutura acessvel por
computadores. Desenvolvida para ser compatvel com as linguagens XML e RDF, OIL
explora a estrutura de modelagem da RDF Schema. Desta maneira, aplicaes que utilizam
apenas RDF podem entender pelo menos parcialmente um documento OIL.
Uma ontologia definida na linguagem OIL consiste de uma lista de definies de
classes (class-def) e atributos (slot), como exemplificado na Figura 40.

117
slot-def come
inverse -comido-por

slot-def tem-parte
inverse -parte-de
properties transitive

class-def animal

class-def planta
subclass-of NOT animal

class-def rvore
subclass-of planta

class-def galho
slot-constraint -parte-de
has-value rvore

class-def folha
slot-constraint -parte-de
has-value galho

class-def defined carnvoro
subclass-of animal
slot-constraint come value-type animal

class-def defined herbvoro
subclass-of animal
slot-constraint come
value-type planta OR
(slot-constraint -parte-de has-value planta)

class-def herbvoro
subclass-of NOT carnvoro

class-def girafa
subclass-of animal
slot-constraint come value-type folha

class-def leo
subclass-of animal
slot-constraint come value-type herbvoro
Figura 40 Exemplo de ontologia utilizando a linguagem OIL
As pesquisas atuais na Web Semntica tm como principal enfoque as ontologias.
Essa tendncia evidenciada pelo desenvolvimento de uma variedade de sistemas e
arquiteturas visando prover a integrao de ontologias, a criao de linguagens, bibliotecas e
editores de ontologias.
As ontologias, ao ordenarem os termos, incorporam Web a preocupao com a
organizao da informao e, conseqentemente, de atribuio de significado aos mesmos. A
incluso de termos numa estrutura, qualquer que seja esta estrutura, veicula uma informao a
118
mais sobre os mesmos, informao esta fornecida pela localizao relativa do termo na
estrutura.
Os tesauros utilizados para representar a informao em Cincia da Informao tm o
mesmo propsito que as ontologias, mas incorporaram ao longo do tempo a noo de ponto
de vista. Em oposio aos sistemas de classificao universal, os tesauros organizam
conceitos de reas delimitadas do saber de acordo com objetivos pr-determinados. Estes
objetivos nortearo o procedimento de categorizao dos termos, pois este procedimento no
absoluto, objetivo ou universal.
As primeiras camadas da Web Semntica dispem, desta maneira, padres de registro
dos documentos e especificam seu preenchimento com termos inseridos numa estrutura
significante. A Web Semntica retoma procedimentos adotados pela Cincia da Informao
desde a dcada de 70, qual seja: a definio de formatos de intercmbio de registros
bibliogrficos e o desenvolvimento de tesauros.
Os trs mais altos nveis da estrutura da Web Semntica apresentada na Figura 35
(lgica, prova e confiana) ainda no esto bem desenvolvidos. Assim, existem apenas
conceitos gerais que norteiam o futuro desenvolvimento dessas trs camadas.
7.4.3 As camadas Lgica, Prova e Confiana
A camada lgica composta por um conjunto de regras de inferncia que os agentes
(computacionais ou humanos) podero utilizar para relacionar e processar informao. As
regras de inferncia fornecem aos agentes computacionais o poder de raciocinar sobre as
estruturas de dados definidas nas camadas mais baixas (XML e RDF), utilizando as relaes
entre esses objetos definidas na camada de ontologia.
Por exemplo, imaginando que uma revendedora de veculos define que quem vender
mais do que 20 produtos em um ano ser categorizado como Super Vendedor. Um programa
pode seguir essa regra e fazer uma simples deduo: Jos vendeu 25 veculos, portanto Jos
um Super Vendedor.
Uma vez que se constri um sistema que segue a lgica definida, podem-se seguir as
ligaes semnticas para construir a prova. Pessoas podem escrever diversas definies
lgicas. Por exemplo, os registros da empresa mostram que Maria vendeu 15 automveis e 8
caminhes. O sistema define que automveis e caminhes so produtos da empresa. As regras
119
matemticas dizem que 15 + 8 = 23, que maior que 20. Existe uma regra que diz que quem
vende mais de 20 produtos classificado como Super Vendedor. O computador junta as
regras para provar que Maria uma Super Vendedora.
Na Web qualquer um pode dizer qualquer coisa sobre qualquer coisa. A assinatura
digital imprescindvel para garantir a confiabilidade das informaes. A autenticidade e
confiabilidade das fontes adquirem um novo significado quando consideramos que agentes
raciocinando sobre os dados podem chegar a concluses que afetem a ao humana. As
assinaturas digitais sero a forma de cada agente verificar a autenticidade das suas fontes. De
acordo com a informao que a assinatura digital lhe fornecer, o agente poder alterar o grau
de certeza associado ao resultado do seu raciocnio ou mesmo ignorar a informao.
Ironicamente, a Web Semntica resgata os fundamentos da Diplomtica, disciplina
ligada questo da falsificao e das dvidas sobre a autenticidade de documentos
medievais (Bellotto, 2002, p.15). Segundo a autora, a Diplomtica nasceu quando jesutas
franceses, em 1643, resolveram publicar uma histria dos santos, movidos pela inteno de
separar a realidade das lendas. Na introduo obra um dos jesutas declarou ser falso um
diploma assinado pelo rei Dagoberto I, o que invalidava vrios diplomas medievais e que
tinham sido preservados e tratados como completamente autnticos pelos beneditinos da
Abadia de Saint Denis. Os beneditinos iniciam ento uma guerra diplomtica para responder
desconfiana provocada pelos jesutas. Em 1681 o beneditino Jean de Mabillon publica uma
obra em 6 volumes intitulada De re diplomatica libri Sex na qual estabelecia os
procedimentos para garantir autenticidade, anlise e compreenso dos atos escritos.
Vislumbra-se, neste aspecto, a necessidade de desenvolvimento de uma diplomtica
da Web, cuja discusso j foi iniciada a partir dos debates sobre a assinatura eletrnica e o
valor do documento digital em transaes financeiras e procedimentos jurdico.
7.5 Concluso
Pensada inicialmente para ser um hipertexto de dimenses mundiais, a estrutura da
Web est fundamentada na apresentao de textos. Imagens e sons, quando presentes, esto
na maior parte das vezes apoiadas sobre um suporte textual.
Segundo Barros (1999, p.7) um texto pode ser definido de duas formas
complementares. Uma primeira concepo de texto toma-o como objeto de comunicao, que
120
se estabelece entre um destinador e um destinatrio, e uma segunda definio faz dele um
objeto de significao. Na histria da Web observa-se inicialmente uma nfase no carter
comunicativo de seu contedo. Progressivamente o foco da ateno recai sobre a significao.
Essa mudana notada claramente pelo surgimento sucessivo das linguagens de marcao.
Da HTML Web Semntica, novos recursos esto sendo implementados, sempre visando um
maior nvel semntico para os documentos da Web.
A atual predominncia da linguagem HTML como estrutura informacional da Web
uma caracterstica que afeta diretamente o processo de recuperao de informao. De fato,
verifica-se que os mecanismos de recuperao na Web, apesar de se diferenciarem em muitos
aspectos, no se distinguem muito quanto qualidade de seus resultados. Para a soluo de
alguns desses problemas a linguagem XML desponta como um novo padro para a criao
das pginas Web.
A linguagem XML sem dvida um avano em relao ao HTML no que se refere
descrio dos documentos Web. Porm, difcil crer que a rigidez imposta por esta
linguagem possa se adequar a toda a variedade de documentos existentes na rede. A
linguagem XML a base para criao de outras linguagens e forma a estrutura de suporte
para a Web Semntica.
A Web Semntica ainda est dando os seus primeiros passos, sendo difcil prever seu
futuro. A sua complexidade ainda um grande empecilho, mas isso poder ser contornado
com a sua consolidao e a criao de ferramentas que facilitem sua utilizao.
A Web um enorme campo de prova para diversas teorias relacionadas ao tratamento
e recuperao da informao. Desde o seu nascimento poucas mudanas ocorreram em sua
estrutura bsica. Talvez a Web Semntica seja a mudana necessria para que a Web se torne
realmente uma fonte de informao confivel.
121
8
8

Concluso

A hiptese que norteou este trabalho versa sobre a incapacidade de as tcnicas
computacionais fornecerem solues absolutas e completas, mesmo em aspectos da cincia da
informao em que o computador se apresenta de forma mais acentuada.
A partir dessa conjectura, e centrando-se na recuperao de informao, foram
analisados os recursos oriundos da Cincia da Computao utilizados no processo de
recuperao de informao.
Freqentemente o computador referenciado como o mais recente artefato utilizado
para a mecanizao do clculo matemtico. De fato, por volta de 1950 a utilizao dos
computadores estava quase que totalmente restrita soluo de clculos matemticos
complexos. Com a exploso da informao e a urgncia no tratamento da crescente
produo de informao, o computador foi (e ainda parece ser) a soluo mais direta para a
poca. Porm, deve-se sempre considerar que a utilizao de recursos computacionais no
tratamento da informao parte de redues ou simplificaes do conceito de informao que
na maioria das vezes mostram-se insuficientes para os objetivos da Cincia da Informao,
mesmo quando restrito ao processo de recuperao de informao.
A natural vocao dos computadores pelo processamento matemtico justifica a
predominncia dos modelos quantitativos de recuperao de informao. Muitas teorias
matemticas foram trazidas para o interior da Cincia da Informao, formando um conjunto
bastante diversificado de solues para o tratamento da informao. Porm, os modelos
122
quantitativos impem uma lgica na qual a informao deve ser numericamente definida no
interior de um sistema fechado, desconsiderando alguns importantes fatores envolvidos no
processo de recuperao de informao.
O ato de interpretar uma informao, de forma individual ou coletiva, dependente da
existncia de um sujeito. Os modelos quantitativos desconsideram a presena de tal sujeito,
no permitindo sua participao efetiva na adequao da representao dos documentos do
sistema. Os modelos dinmicos rompem a rigidez imposta pelos modelos quantitativos
atravs da participao ativa do conjunto de usurios de um sistema de informao na
representao dos documentos.
No mbito da Cincia da Informao, as idias inerentes aos modelos dinmicos
oferecem uma viso diferenciada do processo de recuperao de informao e abrem um
campo de discusso sobre sua aplicabilidade em circunstncias reais.
Os elementos envolvidos no processo de recuperao de informao so tipicamente
lingsticos; geralmente objetos textuais. Uma interpretao correta desses elementos refletir
positivamente na qualidade dos resultados de um sistema de recuperao de informao.
Aplicado aos sistemas de recuperao de informao, o Processamento da Linguagem
Natural (PLN) visa resolver alguns fenmenos lingsticos que dificultam uma interpretao
correta das informaes contidas nos documentos, como visto no Captulo 6. Atravs do PLN
a Cincia da Informao se aproxima da Inteligncia Artificial e herda desta uma imensa
bagagem terica e prtica.
A histria da Cincia da Computao caracterizada por uma sucesso de inventos
que, de forma imprevisvel, podem se perpetuar ou desaparecer. O futuro de um novo
dispositivo ou uma nova tecnologia est condicionado no apenas sua qualidade, mas
tambm a fatores sociais de difcil mensurao ou anlise. A evoluo dos recursos
computacionais no pode ser vista como um caminhar p ante p em uma estrada de mo
nica. Muito se tateia, se experimenta e por vezes se retoma idias esquecidas, se reinventa. A
Internet, como a conhecemos hoje, em grande parte fruto dessa imprevisibilidade e do
empirismo que caracteriza principalmente as cincias duras.
A Internet, particularmente a Web, evidencia a dificuldade inata dos computadores no
tratamento adequado da informao, na acepo dada ao termo pela Cincia da Informao.
Os desenvolvimentos recentes da Web reconhecem essa inabilidade na medida em que
123
buscam a criao de novas linguagens que objetivam uma maior valorao semntica aos
documentos da Web. interessante observar que no projeto da Web Semntica esto
inseridos conceitos e idias que h muito tempo so utilizados pela Cincia da Informao no
tratamento documental.
Os primeiros computadores eletrnicos pesavam vrias toneladas e ocupavam toda
uma sala. A programao era feita atravs da conexo direta de seus circuitos por meio de
cabos. Nos anos 50 a programao era feita atravs da transmisso de instrues em cdigo
binrio por meio de cartes e fitas perfuradas. Com o surgimento das linguagens de
programao, o cdigo binrio ficou limitado ao ncleo do computador e a comunicao com
o mundo externo era feita por uma nova camada de programa.
Atualmente os computadores so constitudos por um conjunto de dispositivos e
camadas de programas que se comunicam umas com as outras, permitindo um enorme
distanciamento do seu ncleo no qual os dados e o processamento algoritmo desses dados so
representados por meio de zeros e uns. Porm, o ncleo binrio de um computador perpassa
todas as suas camadas de programas e limita sua capacidade de efetuar tarefas que os seres
humanos fazem com relativa facilidade como, por exemplo, a traduo, a indexao, a
elaborao de resumos e diversos outros processos relacionados ao tratamento da informao.
A aplicao de mtodos oriundos da Cincia da Computao contribui com a Cincia
da Informao na medida em que viabiliza a operao de grandes quantidades de dados de
uma forma rpida e gil. No entanto, estas caractersticas no necessariamente resultam em
processos consistentes ou satisfatrios de recuperao da informao.
A informao, tomada no contexto da Cincia da Informao, est diretamente
relacionada ao seu significado, o que implica procedimentos menos formais ou operacionais,
baseados na capacidade e na habilidade de abstrao, apreenso e representao da
significao, contextualizando-a. Estes processos no prescindem de uma efetiva anlise dos
conceitos para posterior representao. Esta operao intelectual no pode ser realizada de
forma absoluta por modelos computacionais, pois estes trabalham apenas com formas
significantes.
Recuperar informao implica operar seletivamente um estoque de informao, o que
envolve processos cognitivos que dificilmente podem ser formalizados atravs de um
algoritmo. Mesmo que um modelo computacional de recuperao da informao tenha como
124
base algum tipo de vocabulrio e organizao lgica, a equiparao dos significados
supostamente implcitos pelos significantes depende de uma anlise intelectual.
Seria desejvel que os avanos tericos e metodolgicos j realizados pelos processos
documentrios no mbito da Cincia da Informao fossem avaliados conjuntamente com os
avanos realizados pela Cincia da Computao e vice-versa, quando da realizao de
pesquisas ou desenvolvimento de projetos voltados recuperao de informao.
A capacidade do computador em operar com modelos formais poderia ser associada
aos procedimentos intelectuais humanos, trabalhando-se com o melhor de cada um para a
obteno de resultados mais satisfatrios e adequados. A utilizao de modelos puramente
computacionais poderia ser uma escolha consciente baseada na relao custo-benefcio.
Pode-se concluir que os mtodos e tcnicas desenvolvidos pela Cincia da
Computao devem ser continuamente avaliados e at absorvidos pela Cincia da Informao.
Porm a Cincia da Informao no poder ser desenvolvida no vazio cultural de um sistema
de raciocnio algortmico. Alm disso, considerando as tarefas intelectuais do profissional da
informao e tudo que se espera deles, improvvel que suas habilidades possam ser
substitudas por qualquer tipo de tecnologia.
8.1 Sugestes para pesquisas futuras
Ao iniciar este trabalho, h quatro anos, me perguntava como a Cincia da
Computao poderia contribuir para o avano da Cincia da Informao, j que, para mim,
muitos recursos computacionais estavam sendo ignorados. Hoje me questiono como a Cincia
da Informao pode contribuir para o avano da Cincia da Computao.
Durante a elaborao deste trabalho foram consultadas diversas dissertaes e teses
em Cincia da Computao que versam sobre o tratamento da informao textual. Muitas
delas mostram desconhecer at mesmo a existncia da Cincia da Informao, e apresentam
como novos, mtodos e tcnicas h muito tempo utilizados por esta cincia. Por outro lado,
quando se trata da utilizao de mtodos computacionais no tratamento da informao,
observa-se na literatura da Cincia da Informao reaes que vo desde o ceticismo at o
otimismo exagerado, mostrando tambm desconhecimento sobre a Cincia da Computao.
Portanto, desejvel que futuras pesquisas venham a ser desenvolvidas de forma mais
integrada, buscando trazer para a Cincia da Informao conhecimentos e idias da Cincia da
125
Computao. Da mesma forma, as pesquisas em Cincia da Computao devem considerar a
existncia de uma cincia que h muito tempo vem abordando de forma sistemtica os
problemas relacionados ao tratamento e recuperao da informao.
O surgimento acelerado de novas tecnologias requer dos profissionais da informao
uma pesquisa contnua, lanando sobre tais tecnologias um olhar crtico a fim de avaliar a sua
adequao, especificamente no tratamento da informao ou Cincia da Informao como
um todo.
No contexto deste trabalho possvel destacar alguns assuntos que merecem
aprofundamento em futuras pesquisas. o caso dos modelos dinmicos, que apresentam
idias que devem ser avaliadas de forma sistemtica, pois rompem certos paradigmas da
Cincia da Informao ao permitirem que a representao da informao no interior de um
sistema seja alterada de acordo com sua demanda.
Desde o seu nascimento a Internet e a Web so estudados nas mais variadas reas do
conhecimento. Ao que tudo indica, a Web Semntica propiciar um campo frtil de pesquisa,
principalmente para a Cincia da Informao, pois, como visto no Captulo 7, a mesma
incorpora conceitos criados no interior desta cincia e que esto sendo aplicados a um corpus
de dimenses nunca imaginadas.
126
Bibliografia
ALLEN, J. (1995) Natural language understanding. Redwood City: The
Benjamin/Cummings.
ANDREWS, K., KAPPE, F. e MAURER, H. (1995) Serving information to the Web with Hyper-
G. Computer Network and ISDN Systems, v. 27, n. 6, p.919-926.
ARAMPATZIS, et al. (2000) Linguistically-motivated Information Retrieval. Encyclopedia of
Library and Information Science, v.69, p.201-222.
BAEZA-YATES, R. e RIBEIRO-NETO, B. (1999) Modern Information Retrieval. Addison-
Wesley.
BARRETO, A. (1994) A questo da informao. So Paulo em Perspectiva, v.8, n.4, p.3-8.
BARROS, D.L.P. (1999) Teoria semitica do texto. So Paulo: tica. (Srie Fundamentos,
n.72).
BEARDON, C., LUMSDEN, D. e HOLMES, G. (1991) Natural language and computational
linguistics. Melksham-Wiltshire, England: Ellis Horwoood.
BEIN, J. e SMOLENSKY, P. (1988) Application of the interactive activation model to
document retrieval. Technical Report CU-CS-405-88. University of Colorado at
Boulder. Department of Computer Science.
BELEW, R. K. (1989) Adaptive information retrieval. Proceedings of the 12
th
annual
international ACM SIGIR conference on research and development in information
retrieval, p.11-20.
BELLEI, S.L.P. (2002) O livro, a literatura e o computador. So Paulo: EDUC.
BELLOTTO, H.L. (2002) Como fazer anlise diplomtica e anlise tipogrfica de
documento de arquivo. So Paulo: Arquivo do Estado, Imprensa Oficial do Estado.
(Projeto Como Fazer, n.8).
127
BLAIR, D.C. (1990) Language and representation in information retrieval. Amsterdam:
Elsevier.
BORDOGNA, G. et al. (1990) A system architecture for multimedia information retrieval.
Journal of Information Science. v. 16, n. 2, p.229-238.
BORDOGNA, G. e PASI, G. (1995) Controlling Information Retrieval through a user adaptive
representation of documents. International Journal of Approximate Reasoning, 12,
p.317-339.
BORGMAN, C.L. (2000) From Gutenberg to the global information infrastructure: access
to information in the networked world. Cambridge: MIT Press.
BORKO, H. (1968) Information Science: What is it? American Documentation, v. 19, n. 1,
p.3-5..
BOUGNOUX, D. (1994) Introduo s cincias da informao e da comunicao.
Petrpolis: Vozes.
BRAGA, A.P., CARVALHO, A.C.P.L.F. e LUDEMIR, T.B. (2000) Redes neurais artificiais:
teoria e aplicaes. Rio de Janeiro: LTC.
BRAGA, G. M. (1995) Informao, cincia da informao: breves reflexes em trs tempos.
Cincia da Informao, v. 24, n. 1, p.84-88.
BRITO, A.N., VALE, O.A. (orgs) (1998) Filosofia, lingstica, informtica: aspectos da
linguagem. Goinia: Universidade Federal de Gois.
BRUANDET, M-F. (1987) Outline of a knowledge-base model for an intelligent information
retrieval system. Information Processing and Management, v. 25, n. 1, p.89-115.
BUCKLAND, M.K. (1991a) Information and Information Systems. New York: Greenwood.
BUCKLAND, M.K. (1991b) Information as thing. Journal of the American Society of
Information Science, v.42, n.5, p.351-360.
BUCKLAND, M.K. (1997) What is a "document"? Journal of the American Society of
Information Science, v.48, n.9, p.804-809.
BUCKLEY, C. et al. (1995) Automatic query expansion using SMART: TREC 3. In: Harmon,
D.K. (ed.) Overview of the Third Text REtrieval Conference (TREC-3). NIST
Special Publication 500-225, p.69-80.
BURKE, M.A. (1999) Organization of multimedia resources: principle and practice of
information retrieval. Aldershot: Gower.
128
BUSH, V. (1945) As we may think. The Atlantic Monthly, v. 176, n. 1; pp 101-108.
Disponvel em <http://www.theatlantic.com/unbound/flashbks/computer/bushf.htm>.
Acessado em 06.02.2003.
CASTELLS, M. (1999) A sociedade em rede. 2 edio. So Paulo: Paz e Terra.
CHARTIER, Roger. (1999) A aventura do livro: do leitor ao navegador; conversaes com
Jean Lebrun. So Paulo: Fundao Editora da UNESP.
CHARTIER, Roger. (2002) Os desafios da escrita. So Paulo: Fundao Editora da UNESP.
CHIARAMELLA, Y. et al. (1986) IOTA: A Full Text Information Retrieval System.
Proceedings of the 9
th
annual international ACM SIGIR conference on research and
development in information retrieval, p.207-213
CHIARAMELLA, Y. e DEFUDE, B. (1987) A prototype of an intelligent system for information
retrieval: IOTA. Information Processing and Management, v. 23, n. 4, p.285-303.
CINTRA, A.M.M. et al. (1994) Para entender as linguagens documentrias. So Paulo:
Polis: APB. (Coleo Palavra Chave, 4)
CROFT, W.B., TURTLE, H.R., LEWIS, D.D. (1991) The use of phrases and structured queries
in information retrieval. Proceedings of the 14
th
annual international ACM SIGIR
conference on research and development in information retrieval, p.32-45.
DACONTA, M.C, OBRST, L.J. e SMITH, K.T. (2003) The Semantic Web: a guide to the future
of XML, Web services, and knowledge management. Indianapolis: Wiley.
DAUM, B e MERTEN U. (2002) Arquitetura de sistemas com XML. Rio de Janeiro:
Campus.
DEERWESTER, S.C. et al. (1990) Indexing by latent semantic analysis. Journal of the
American Society for Information Science, v. 41, n. 6, p.391-407.
DENNING, P.J. et al. (1989) Computing as a discipline. Communication of the ACM, v. 32,
N. 1, p.9-23.
DERTOUZOS, M. (1997) O que ser: como o novo mundo da informao transformar nossas
vidas. So Paulo: Companhia das Letras.
DEVLIN, K. (1991) Logic and Information. Cambridge: University Press.
DOSZKOCS T., REGGIA, J. e LIN, X. (1990) Connectionist models and information retrieval.
Annual Review of Information Science & Technology, v. 25, p.209-260.
129
DREYFUS, H.L. (1999) What computers still cant do: a critique of artificial reason.
Cambridge: MIT Press.
ELLIS, D. (1996) Progress and Problems in Information Retrieval. London: Library
Association Publishing.
FALOUTSOS, C. e OARD, D. (1995) A survey of information retrieval and filtering
methods. Techinical Report CS-TR-3514. Department of Computer Science, University
of Maryland.
FERNEDA, E. (1997) Construo automtica de um thesaurus retangular. Campina
Grande. Dissertao (Mestrado em Informtica), Universidade Federal da Paraba.
FERREIRA, S.M.S.P. (1995) Novos paradigmas e novos usurios de informao. Cincia da
Informao. v.25, n.2. Verso eletrnica.
FIGUEIREDO, N.M. (1999) Paradigmas modernos da Cincia da Informao. So Paulo:
Polis. (Coleo Palavra-Chave, 10).
FONSECA FILHO, C. (1999) Histria da computao teoria e tecnologia. So Paulo: LTr.
FORD, N. (1991) Expert systems and artificial intelligence: an information managers
guide. London: Library Association Publishing.
FURGERI, S. (2001) Ensino didtico da linguagem XML. So Paulo: rica.
GAUCH, S. e FUTRELLE, R.P. (1994) Experiments in automatic word class and word sense
identification for information retrieval. Proceedings of 3
rd
Annual symposium on
document analysis and information retrieval, p.425-434.
GORDON, M. (1988) Probabilistic and genetic algorithms for document retrieval.
Communications of the ACM, v. 31, n. 10, p.1208-1218.
HAUPTMANN, A.G. et al. (1998) Experiments in Information Retrieval from Spoken
Documents. Proceedings of the DARPA Workshop on Broadcast News
Understanding Systems - BNTUW-98, p.175-181.
HAYES, R.M. (1986) Information Science Education. In: ALA World Encyclopedia of
Library and Information Science. Chicago: American Library Association.
HAYKIN, S. (2001) Redes Neurais: Princpios e prtica. Porto Alegre: Bookman.
HOLLAND, J.H. (1998) Adaptation in natural and artificial systems: an introductory
analysis with applications to biology, control, and artificial intelligence. Cambridge: MIT
Press.
130
INGWERSEN, P. (1992) Information Retrieval Interaction. London: Taylor Graham.
Disponvel em < http://www.db.dk/pi/iri/files/Ingwersen_IRI.pdf> Acessado em
23.10.2003.
JACQUEMIN, C., KLAVANS, J.L. e TZOUKERMANN, E. (1997) Expansion of Multi-Word Terms
for Indexing and Retrieval Using Morphology and Syntax. 35
th
Annual Meeting of the
Association for Computational Linguistic (ACL) and 8
th
Conference of the
European Chapter of the ACL, Madri, p.24-31.
JEAN, G. (2002) A escrita memria dos homens. Rio de Janeiro: Objetiva. (Coleo
Descobertas).
JOHNSON, S. (2001) Cultura da Interface: como o computador transforma nossa maneira de
criar e comunicar. Rio de Janeiro: Jorge Zahar.
JONES, K.S. (1991) The role of artificial intelligence in information retrieval. Journal of the
American Society for Information Science, v.42, n.8, p.558-565.
JONES, K.S. et al. (1996) Experiments in spoken document retrieval. Information
Processing and Management, v.32, n.4, p.399-417.
JONES, K.S., WALKER, S. e ROBERTSON, S.E. (2000) A probabilistic model of information
retrieval: development and comparative experiments Part 2. Information Processing
and Management, v. 36, n. 6, p.809-840.
JONES, K. S. e WILLETT, P. (eds) (1997) . Readings in Information Retrieval. San
Francisco: Morgan Kaufmann Publishers.
KAJI, H. et al. (2000) Corpus-dependent association thesauri for information retrieval. 18
th

International conference of computational linguistics Coling, Nancy, p.1-7.
KAPPE, F. (1991) Aspects of a modern multi-media information system. PhD Thesis, Graz
University of Technology, Austria.
KORFHAGE, R.R. (1997) Information Storage and Retrieval. New York: John Wiley &
Sons.
KOWALSKI, G. (1997) Information Retrieval Systems: theory and implementation. Kluwer
Academic Publishers
KROVETZ, R. (1997) Homonymy and Polysemy in Information Retrieval. Proceedings of the
35
th
Annual Meeting of the Association for Computational Linguistics, p.72-79.
KROVETZ, R. e CROFT, B.W. (1992) Lexical ambiguity and Information Retrieval. ACM
transactions on Information System, v. 10, n. 2., p.115-141.
131
LANCASTER, F.W. (1993) Indexao e Resumos: teoria e prtica. Braslia: Briquet de
Lemos.
LANCASTER, F.W. (1996) Avaliao de servios de bibliotecas. Braslia: Briquet de Lemos.
LANCASTER, F.W. e SANDORE, B. (1997) Technology and Management in Library and
Information Services. University of Illinois Graduate School of Library and Information
Science Science.
LE COADIC, Y-F. (1996) A cincia da informao. Braslia: Briquet de Lemos.
LESK, M. (1995) The seven ages of information retrieval. Presented on: Conference for the
50th anniversary of As We May Think, MIT, Cambridge, Massachussets. Disponvel
em <http://www.ifla.org/VI/5/op/udtop5/udtop5.htm>. Acessado em 13.10.2003.
LEVY, P. (1993) As tecnologia da inteligncia: o futuro do pensamento na era da
informtica. Rio de Janeiro: Editora 34.
LEWIS, D.D. (1992) An evaluation of phrasal and clustered representation on a text
categorization task. Proceedings of the 15
th
annual international ACM SIGIR
conference on research and development in information retrieval, p.37-50.
LEWIS, D.D. e JONES, K.S. (1996) Natural Language Processing for Information Retrieval.
Communications of the ACM, v. 39, n. 1, p.92-101.
LIDDY, E.D. (1998) Enhanced text retrieval using Natural Language Processing. Bulletin of
the American Society for Information Science, v. 24, n. 4.
MACHADO, A.M.N. (2003) Informao e controle bibliogrfico: um olhar sobre a
ciberntica. So Paulo: Editora UNESP.
MAEDCHE, A. e STAAB, S. (2000) Semi-automatic engineering of ontologies from text. In:
Proceedings of SEKE00: 12
th
International Conference on Software Engineering
and Knowledge Engineering. Disponivel em
<http://citeseer.nj.nec.com/maedche00semiautomatic.html> Acessado em 14.10.2003.
MARON, M.E. e KUHNS, J.L. (1960) On relevance, probabilistic indexing and information
retrieval. Journal of the ACM, v. 7, n. 3, p.216-244.
MATTELART, A. (2002) Histria da sociedade da informao. So Paulo: Loyola.
MCCULLOCH, W.S. e PITTS, W.H. (1943) A logical calculus of the ideas immanent in
nervous activity. Bulletin of Mathematical Biophysics, 5:115-133
MCGARRY, K. (1999) O contexto dinmico da informao. Braslia: Briquet de Lemos.
132
MINSKY, M.L. (1975) A framework to represent knowledge. The Psychology of Computer
Vision. McGraw-Hill, p.211-277.
MINSKY, M.L. e PAPPERT, S. (1969) Perceptron: An introduction to computational
geometry. Cambridge: MIT Press
MITCHELL, M. (2002) An introduction to genetic algorithms. 8
th
printing. Cambridge: MIT
Press.
MOLINARI, A. e PASI, G. (1996) A Fuzzy Representation of HTML Documents for
Information Retrieval Systems. Proceedings of IEEE International Conference on
Fuzzy Systems, New Orleans, p.8-12.
MOOERS, C. (1951). Zatocoding applied to mechanical organization of knowledge.
American Documentation, v. 2, n. 1, p.20-32.
MORGAN, J.J. e KILGOUR, A.C. (1996) Personalising on-line information retrieval support
with a genetic algorithm. In: Moscardini, A.O. e Smith, P. (Eds.) Proceedings of
PolyModel 16: applications of artificial intelligence, pp 142-149.
MORRIS, R.C.T. (1994). Toward a user-centered information science. Journal of the
American Society for Information Science, v. 45, n.1.
MOZER, M.C. (1984) Inductive information retrieval using parallel distributed
computation. ICS Technical Report 8406. University of California, San Diego.
NEGROPONTE, N. (1995) A vida digital. So Paulo: Companhia das Letras.
ORENGO, V.M. e HUYCK, C.R. (2001) A Stemming algorithm for the Portuguese Language.
In: Proceedings of SPIRE2001 Symposium on String Processing and Information
Retrieval, Laguna de San Raphael, Chile. Disponvel em
<http://www.cwa.mdx.ac.uk/chris/Search/stemmer.doc>. Acessado em: 16.10.2003.
ORTEGA, C.D. (2002) Informtica Documentria: estado da arte. So Paulo, 234p.
Dissertao (Mestrado em Cincias da Comunicao) - Escola de Comunicao e Artes,
Universidade de So Paulo.
OTLET, P. (1934) Trait de documentation: le livre sur le livre, thorie et pratique.
Bruxelles: Editiones Mundaneum.
PENZIAS, A. (1992) Idias e informao: operando num mundo de alta tecnologia. Lisboa:
Gradiva. (Coleo Cincia Aberta, 55).
PESSIS-PASTERMAK, G. (1993) Do caos inteligncia artificial: quando os cientistas se
interrogam. So Paulo: Editora UNESP.
133
QUILLIAN, M.R. (1968) Semantic memory. In: Minsky, M.(ed). Semantic Information
Processing. Cambridge: MIT Press. p.227-270
RAYWARD, W.B. (1997) The Origins of Information Science and the International Institute of
Bibliography/International Federation for Information and Documentation (FID). Journal
of the American Society for Information Science, v. 48, n. 4, p.289-300.
RICH, E. (1988) Inteligncia Artificial. So Paulo: McGraw-Hill.
RILLOF, E. (1995) Little words can make a big difference for text classification. Proceedings
of the 18
th
annual international ACM SIGIR conference on research and
development in information retrieval, p.130-136.
ROBERTSON, S.E. (1977) Theories and models in information retrieval. Journal of
Documentation, 33, p.126-148.
ROBERTSON, S.E. e JONES, K.S. (1976) Relevance weighting of search terms. Journal of the
Americam Society for Information Science, v. 27, n. 3, p.129-146.
ROBREDO, J. e CUNHA, M.B. (1994) Documentao de hoje e de amanh: uma abordagem
informatizada da biblioteconomia e dos sistemas de informao. So Paulo: Global.
ROBREDO, J. (2003) Da Cincia da Informao revisitada aos sistema humanos de
informao. Braslia: Thesaurus.
ROSENBLATT, F. (1958) The perceptron: a probablistic model for information storage and
retrieval in the brain. Psychological Review, v. 65, p.386-408.
ROWLEY, J. (2002) A biblioteca eletrnica. Braslia: Briquet de Lemos.
RUBIN, R.E. (2000) Foundations of library and information science. New York: Neal-
Schuman.
RUYER, R. (1972) A ciberntica e a origem da informao. Rio de Janeiro: Paz e Terra.
SACCONI, L.A. (1999) Nossa gramtica: teoria e prtica. So Paulo: Atual.
SALTON, G. (ed.) (1971). The SMART retrieval system: experiments in automatic
document processing. Prentice-Hall.
SALTON, G. (1972). A new comparison between conventional indexing (MEDLARS) and
automatic text processing (SMART), Journal of the American Society for Information
Science, v. 23, n. 2, p.74-84.
SALTON, G. (1973). Recent studies in automatic text analysis and document retrieval,
Journal of the ACM, v. 20, n. 2, p.258-278.
134
SALTON, G. (1984) The use of extended Boolean logic in information retrieval. Technical
Report TR 84-588, Cornell University, Computer Science Dept., Ithaca, N.Y.
SALTON, G. e BUCKLEY, C. (1988) Term-Weighting Approaches in Automatic Text Retrieval.
Information Processing and Management, v. 24, n. 5, p.513-523.
SALTON, G., FOX, E.A., WU, H. (1983) Extended Boolean Information Retrieval.
Communication of the ACM, v. 26, n. 11, p.1022-1036.
SALTON, G. e LESK, M.E. (1968) Computer evaluation of indexing and text processing.
Journal of the ACM, v. 15, n. 1, p.8-36.
SALTON, G. e MCGILL, M. J. (1983) Introduction to Modern Information Retrieval.
McGraw Hill.
SANTOS, D. (1996) Portugus Computacional. In: Duarte, I., Leiria, I. (ed.). Actas do
Congresso Internacional sobre o Portugus. Lisboa: Edies Colibri. p.67-184.
SANTOS, D. (2001) Introduo ao processamento de linguagem natural atravs das
aplicaes. In: Ranchhod, E. (ed.) Tratamento das Lnguas por Computador: Uma
introduo lingstica computacional e suas aplicaes, Lisboa: Caminho, p.229-259.
Disponvel em <http://www.linguateca.pt/Diana/public.html>. Acessado em 01.08.2003.
SARACEVIC, T. (1995) Interdisciplinary nature of information science. Cincia da
Informao. v. 24, n. 1, p.36-31.
SARACEVIC, T. (1996) Cincia da informao: origem, evoluo e relaes. Perspectivas em
Cincia da Informao, v. 1, n. 1, p.41-62.
SARACEVIC, T. (1999) Information Science. Journal of the American Society for
Information Science, v. 50, n. 12, p.1051-1063.
SCHAMBER, L. (1996) What is a Document? Rethinking the concept in uneasy times. Journal
of the Americam Society for Information Science, v. 47, n. 9, p.669-671.
SCHULTZ, C. K. (ed.) (1968) H.P. Luhn: Pioneer of information science - selected works.
New York: Spartan Books.
SETZER, V.W. (2001) Meios Eletrnicos e Educao: uma viso alternativa. So Paulo:
Escrituras.
SHANNON, C. e WEAVER, W. (1949) The Mathematical theory of communication.
University of Illinois Press.
SHAW, I.S. e SIMES, M.G. (1999) Controle e modelagem fuzzy. So Paulo: Edgard
Blcher.
135
SHERA, J.H e CLEVELAND, D.B. (1977) History and foundations of Information Science.
Annual Review of Information Science and Technology, v. 12, p.249-275.
SMEATON, A.F. (1997) Information Retrieval: still butting heads with natural language
processing. In: PAZIENZA, M.T. (ed.) Information Extraction: a multidisciplinary
approach to an emerging information technology. Springer-Verlag Lecture Notes in
Computer Science, n. 1299, p.115-138.
SMIT, J. (1987) O que documentao. So Paulo: Brasiliense. (Coleo Primeiros Passos,
174).
SMIT, J. (coord.) (1987) Anlise Documentria: a anlise da sntese. Braslia: IBICT.
SMITH, E.S. (1993) On the sholders of giants: from Boole to Shannon to Taube: the origins
and development of computerized information from the mid-19
th
century to the present.
Information Technology and Libraries, n. 12, p.217-226.
SOWA, J. F. (2000) Knowledge representation: logical, philosophical, and computational
foundations. Pacific Grove, CA: Brooks/Cole.
STOCKWELL, F. (2001) A history of information storage and retrieval. Jefferson:
McFarland.
STRATHERN, P. (2001) Darwin e a evoluo em 90 minutos. Rio de Janeiro: Jorge Zahar.
TLAMO, M.F. (1997) Informao: organizao e comunicao. Seminrio de Estudos de
Informao da Universidade Federal Fluminense, 1, 1996 Anais... Niteri, Rio de
Janeiro : EDUFF, p.11-14.
TEIXEIRA, J.F. (1998) Mentes e mquinas: uma introduo cincia cognitiva. Porto Alegre:
Artes Mdicas.
TENRIO, R.M. (1998) Crebros e computadores: a complexidade analgico-digital na
informtica e na educao. So Paulo: Escrituras. (Srie ensaios transversais).
TONG, R.M. et al. (1985) RUBRIC: An environment for full text information retrieval.
Proceedings of the 8
th
annual international ACM SIGIR conference on research and
development in information retrieval, p.243-251.
TONG, R.M. et al. (1987) Conceptual Information Retrieval Using RUBRIC. Proceedings of
the 10
th
annual international ACM SIGIR conference on research and development
in information retrieval, p.247-253.
136
USCHOLD, M. (2000) Creating, integrating and maintaining local and global ontologies.
Workshop on Applications of Ontologies and Problem-Solving Methods - 14th
European Conference on Artificial Intelligence, 2000. Disponvel em
<http://delicias.dia.fi.upm.es/WORKSHOP/ECAI00/13.pdf> Acessado em 14.10.2003.
VAN RIJSBERGEN, C.J. (1979) Information retrieval. London: Butterworths. Disponvel em
< http://citeseer.nj.nec.com/vanrijsbergen79information.html>. Acessado em 25.10.2003.
VRAJITORU, D. (2000) Large Population or Many Generations for Genetic Algorithms?
Implications in Information Retrieval. In: Crestani, F., Pasi, G. (eds.): Soft Computing in
Information Retrieval. Techniques and Applications, Physica-Verlag, Heidelberg,
p.199-222.
WOODS, W.A. (1975) What's in a link: Foundations for semantic networks. In: Bobrow, D.G.
e Collins , A. (eds). Representation and Understanding: Studies in Cognitive Science.
Academic Press, New York.
WURMAN, R.S. (1991) Ansiedade de Informao: como transformar informao em
compreenso. So Paulo: Cultura Editores Associados.
YAGER, R.R. (1988) On ordered weighted averaging aggregation operators in multi-criteria
decision making, IEEE transactions on Systems, Man and Cybernetics, v. 18, p.183-
190.
ZADEH, L.A. (1965) Fuzzy sets. Information and Control, v. 8, n. 3, p.338-353.

137

Você também pode gostar