Você está na página 1de 15

A LÓGICA FUZZY APLICADA À

relatos de experiência
RECUPERAÇÃO DE INFORMAÇÃO

Edberto Ferneda *
Guilherme Ataíde Dias **

RESUMO
O processo de recuperação de informação
envolve conceitos subjetivos, imprecisos e
vagos tais como “necessidade de
informação”, “relevância”, além do próprio
conceito de “informação”. Os principais
modelos de recuperação de informação
tratam tais conceitos de maneira exata,
representados por um único valor numérico.
A lógica fuzzy, ao operar com a incerteza
dos fenômenos da natureza de uma forma
sistemática e rigorosa, representa uma
alternativa promissora na solução de alguns
problemas relacionados à recuperação de
informação. Este trabalho apresenta a
lógica fuzzy e alguns exemplos de sua * Universidade Estadual Paulista –
utilização em sistemas de recuperação de UNESP-Marília. Departamento de
Ciência da Informação. E-mail:
informação (SRI). ferneda@marilia.unesp.bf
** Universidade Federal da Paraíba –
Palavras-chave: Recuperação de Informação. Lógica Fuzzy. UFPB. Departamento de Ciência da
Informação. E-mail: Guilherme@dci.
Conjuntos Fuzzy. ccsa.ufpb.br

1 INTRODUÇÃO

As pesquisas em sistemas vídeos) prontamente compartilhados e


computacionais de recuperação de disponíveis.
informação datam da década de 1950. Em mais de meio século de
Porém, com o surgimento da Web no pesquisas, aliado a um acelerado avanço
início dos anos de 1990, a importância das tecnologias de informação e
desses sistemas cresce continuamente à comunicação (TIC), inúmeras ideias,
medida que cresce o número de conceitos e técnicas de recuperação de
documentos (páginas, imagens, sons, informação foram propostos e

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 51


Edberto Ferneda, Guilherme Ataíde Dias

desenvolvidos. Porém, a busca por Serão apresentados os principais


informações relevantes e úteis ainda é elementos envolvidos no processo de
uma tarefa bastante árdua. recuperação de informação e os principais
Recuperar informação implica em modelos computacionais desenvolvidos
operar seletivamente um estoque de entre as décadas 1960 e 1970, os
informação, o que envolve processos modelos clássicos. Por fim, serão
cognitivos difíceis de serem formalizados. apresentados os conceitos de Lógica e
Assim, a utilização de recursos Conjuntos Fuzzy para, em seguida,
computacionais nessa tarefa parte de apresentar formas de utilização de tais
inevitáveis simplificações teóricas e de conceitos na recuperação de informação.
adequações de conceitos subjetivos tais
como “relevância“ e “necessidade de 2 RECUPERAÇÃO DE INFORMAÇÃO
informação”, além do próprio conceito de
informação. Recuperar uma informação
Em vista da imprecisão inerente ao consiste em identificar, em um acervo
processo de recuperação de informação, documental, quais os documentos
pesquisadores tentam abordar os satisfazem total ou parcialmente a uma
problemas relacionados à essa área determinada necessidade de informação
utilizando a lógica nebulosa, ou lógica do usuário. Em princípio, considera-se
fuzzy, a fim de representar com mais que o usuário está interessado em
propriedade os conceitos envolvidos recuperar informação sobre um
nesse processo. determinado assunto e não documentos,
Esse trabalho visa apresentar a embora seja nestes que a informação está
lógica fuzzy como uma forma de melhor registrada.
representar a imprecisão envolvida no A Recuperação de Informação se
processo de recuperação de informação. estabeleceu como área de pesquisa em
Inicialmente será apresentada a 1951, quando Calvin Mooers criou o termo
recuperação de informação como uma (Information Retrieval) e definiu os
área de pesquisa multidisciplinar, mas problemas a serem abordados por esta
com particular interesse da Ciência da nova disciplina. “[A Recuperação de
Informação e da Ciência da Computação. Informação] trata dos aspectos

52 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

intelectuais da descrição da informação e 2.1 O processo de recuperação de


informação
sua especificação para busca, e também
de qualquer sistema, técnicas ou
O processo de recuperação de
máquinas que são empregadas para
informação consiste em identificar, no
realizar esta operação (MOOERS, 1951,
conjunto de documentos (corpus) de um
p. 21)”.
sistema, quais atendem à necessidade de
Para Saracevic (1999), a
informação do usuário. Uma
Recuperação de Informação pode ser
representação simplificada do processo
considerada a vertente tecnológica da
de recuperação de informação é
Ciência da Informação e é resultado da
apresentada na Figura 1.
relação desta com a Ciência da
Computação. Diversos processos criados Figura 1 – Representação do processo de
e desenvolvidos ao longo da história da recuperação de informação

Ciência da Informação estão direta ou


indiretamente relacionados à recuperação
de informação.
Na Ciência da Computação a
Recuperação de Informação se firmou
como uma área de pesquisa autônoma,
cujo interesse está centrado no
desenvolvimento de ferramentas para o
Fonte: Adaptado de Ferneda (2012, p.14)
tratamento de fontes de informação não
estruturadas ou semiestruturadas. É tema
No ambiente digital que vem se
de interesse de uma imensa comunidade
configurando nas últimas décadas, o
de pesquisadores de todas as partes do
conceito de documento teve que se
mundo e abriga uma grande quantidade
abstrair de seu suporte e centrar-se no
de vertentes, abordagens e metodologias.
que lhe é essencial: a informação. Nesse
Conta com periódicos e eventos
novo cenário, textos, imagens, sons,
direcionados especificamente para essa
vídeos, páginas Web e diversos outros
área.
objetos digitais requerem diferentes tipos
de tratamento e representação para uma

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 53


Edberto Ferneda, Guilherme Ataíde Dias

recuperação de informação eficaz geralmente por um conjunto de termos


(BURKE, 1999). que representa linguisticamente a sua
Buckland (1991) define o conceito necessidade de informação. A principal
de “informação como coisa” e argumenta dificuldade está em predizer os termos
que os acervos dos sistemas de que foram usados para representar os
informação são registros relacionados a documentos que satisfarão sua
coisas ou objetos. Nesses sistemas, necessidade, e ao mesmo tempo evitar a
informação está vinculada ao objeto que a recuperação de documentos não
contém. Por sua vez o termo documento, relevantes. Para isso é necessário que o
entendido como coisa informativa, usuário tenha um relativo conhecimento
incluiria, por exemplo, objetos, artefatos, do vocabulário ou da terminologia do
imagens e sons. domínio de conhecimento de seu
Independente dos tipos de interesse.
documentos gerenciados por um sistema Um SRI pode oferecer diversos
de informação, a eficiência da recursos para facilitar o usuário na tarefa
recuperação é dependente da forma de expressar a sua necessidade de
como esses documentos estão informação por meio da formulação de
representados. A representação de um uma expressão de busca. Porém, para
documento tem por objetivo identificar e que seja possível uma comparação entre
descrever resumidamente o seu conteúdo a expressão de busca e cada um dos
informacional, ao mesmo tempo em que documentos do corpus é necessário que
define seus pontos de acesso para a as representações (da busca e dos
busca em um sistema de informação. A documentos) sejam similares.
tarefa de representar os documentos é No centro do processo de
feita em um tempo anterior à execução de recuperação de informação está a função
qualquer busca. No esquema da Figura 1, de busca, que compara as
a existência de uma seta seccionada representações dos documentos com a
tenta mostrar essa assincronia. representação da expressão de busca e
Em um SRI usuário expressa sua recupera os itens que supostamente
necessidade de informação por meio de fornecerão informações úteis ou
uma expressão de busca, composta relevantes para o usuário. O resultado de

54 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

uma busca é geralmente composto por Apesar de alguns dos modelos de


uma lista de referências a documentos, recuperação de informação terem sido
ordenada pelo grau de relevância criados entre as décadas de 1960 e 1970,
calculada pela função de busca. as suas principais ideias ainda estão
Um modelo de recuperação de presentes na maioria dos sistemas de
informação é a especificação formal de recuperação atuais e nos mecanismos de
três elementos: a representação dos busca da Web.
documentos, a representação da
expressão de busca e a função de busca 2.2 Modelos de Recuperação de
Informação
(FERNEDA, 2012, p.20). De maneira mais
formal, Baeza-Yates e Ribeira-Neto (2011,
Os chamados “modelos clássicos”
p.58) definem modelo de recuperação de
de recuperação de informação comportam
informação como uma quadrupla:
propostas que serviram de base para o
[D, Q, F, R(qi, dj)]
desenvolvimento de diversos outros
a) D é um conjunto composto por
modelos e algumas técnicas que até hoje
visões lógicas (representações) dos
são utilizadas. São eles: modelo
documentos no corpus;
booleano, modelo espaço vetorial e o
b) Q é um conjunto composto de visões
modelo probabilístico.
lógicas das necessidades de
informação dos usuários;
2.2.1 Modelo Booleano
c) F é um framework para a
modelagem de representações dos
No modelo booleano um
documentos, consultas e seus
documento é representado por um
relacionamentos;
conjunto de termos de indexação. As
d) R(qi, dj) é uma função de
buscas são formuladas por meio de uma
ordenamento (ranking) que atribui
expressão booleana composta por termos
um número real à relação entre uma
ligados através dos operadores lógicos
representação da consulta qi de Q e
AND, OR e NOT, e apresentam como
a representação de um documento dj
resultado o conjunto de documentos cuja
de D.
representação satisfaz as restrições
lógicas da expressão de busca.

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 55


Edberto Ferneda, Guilherme Ataíde Dias

Uma expressão conjuntiva de O modelo booleano possui diversas


enunciado t1 AND t2 recuperará limitações. Algumas delas são:
documentos indexados por ambos os a) Não existe uma forma de atribuir
termos (t1 e t2). Uma expressão disjuntiva importância relativa (pesos) aos
t1 OR t2 recuperará o conjunto dos termos de indexação dos
documentos indexados pelo termo t1 ou documentos nem aos diferentes
pelo termo t2. Uma expressão que utiliza termos da expressão de busca.
apenas um termo t1 terá como resultado o Assume-se implicitamente que
conjunto de documentos indexados por todos os termos possuem o mesmo
esse termo. A expressão NOT t1 peso.
recuperará os documentos que não são b) O resultado de uma busca
indexados pelo termo t1. As expressões t1 booleana se caracteriza por uma
NOT t2 ou t1 AND NOT t2 terão como simples partição do corpus em dois
resultado o conjunto dos documentos que subconjuntos: os documentos que
são indexados por t1 e que não são atendem à expressão de busca e
indexados por t2. aqueles que não atendem.
Termos e operadores booleanos Presume-se que todos os
podem ser combinados para especificar documentos recuperados são de
buscas mais detalhadas ou restritivas. igual relevância, não havendo
Como a ordem de execução das nenhum mecanismo pelo qual os
operações lógicas de uma expressão documentos possam ser
influencia no resultado da busca, muitas ordenados;
vezes é necessário explicitar essa ordem c) Sem um treinamento apropriado, o
delimitando partes da expressão por meio usuário leigo será capaz de
de parênteses. A definição de expressões formular somente buscas simples.
complexas exige um conhecimento Para buscas que exijam
profundo da lógica booleana. O expressões mais complexas é
conhecimento da lógica booleana é necessário um conhecimento sólido
importante também para entender e da lógica booleana.
avaliar os resultados obtidos em uma
busca.

56 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

Apesar de suas limitações, muitos corpus, ou mesmo entre dois documentos,


sistemas se desenvolveram utilizando o por meio do cálculo de distância entre
modelo booleano como ponto de partida dois vetores. Em um espaço vetorial
para a criação de novos recursos de contendo N dimensões, a similaridade
recuperação. Neste sentido o modelo (sim) entre um documento dj e uma
booleano pode ser considerado o modelo expressão de busca q pode ser calculada
mais utilizado nos sistemas de utilizando a seguinte fórmula (SALTON;
recuperação de informação e nos McGILL, 1983, p.121):
mecanismos de busca da Web.

N
i =1
( wi , j × wi ,q )
sim(d j , q) =
∑ ∑
N N
i =1
w 2 i, j × i =1
w 2 i ,q
2.2.2 Modelo Espaço Vetorial
onde wi,j é o peso do i-ésimo termo do
documento dj e wi,q é o peso do i-ésimo
No modelo espaço vetorial, ou
termo da expressão de busca q.
apenas modelo vetorial, um documento é
Os valores da similaridade entre
representado por um vetor onde cada
uma expressão de busca e cada um dos
elemento representa o peso, ou
documentos do corpus são utilizados no
relevância, do respectivo termo de
ordenamento dos documentos
indexação na representação do conteúdo
resultantes. Portanto, no modelo vetorial o
informacional do documento. Da mesma
resultado de uma busca é um conjunto de
forma que os documentos, uma
documentos ordenados pelo grau de
expressão de busca também é
similaridade entre cada documento e a
representada por um vetor numérico onde
expressão de busca.
cada elemento representa a importância
Um dos maiores méritos do modelo
(peso) do respectivo na representação da
vetorial é a definição de um dos
necessidade de informação do usuário.
componentes essenciais de qualquer
A utilização da mesma
teoria científica: um modelo conceitual.
representação vetorial tanto para os
Este modelo serviu como base para o
documentos como para as expressões de
desenvolvimento de uma teoria que
busca permite calcular o grau de
alimentou uma grande quantidade de
similaridade entre uma expressão de
busca e cada um dos documentos do

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 57


Edberto Ferneda, Guilherme Ataíde Dias

pesquisas e resultou em sistemas como o documentos, o usuário pode marca


SMART (SALTON, 1971). alguns deles que considera
verdadeiramente relevantes para a sua
2.2.3 Modelo Probabilístico necessidade. O conjunto de documentos
marcados pode ser então submetido ao
O modelo probabilístico foi sistema, permitindo fornecer resultados
proposto inicialmente por Maron e Kuhns mais precisos. Esse processo,
(1960) e posteriormente explorado por denominado relevance feedback, pode
diversos outros pesquisadores, tais como ser repetido até que o usuário se sinta
Robertson e Jones (1976). A ideia é tratar satisfeito com os resultados.
o processo de recuperação de informação Uma virtude do modelo
como um processo probabilístico, já que é probabilístico está em reconhecer que a
caracterizado por seu grau de incerteza atribuição de relevância é uma tarefa do
no julgamento de relevância dos usuário, pois é o único modelo que
documentos em relação a uma expressão incorpora explicitamente o processo de
de busca. Assim, é mais realista pensar relevance feedback como base para a sua
em uma probabilidade de relevância do operacionalização.
que em uma pretensa relevância exata, Os três modelos clássicos
como a utilizada nos modelos booleano e compartilham a ideia de que a relevância
vetorial. de um documento pode ser definida de
A partir de uma expressão de forma exata, representado por um valor
busca, composta por um ou mais termos, numérico. Porém, o processo de
o usuário expressa sua necessidade de recuperação de informação é
informação e a submete ao sistema. Por inerentemente impreciso. A modelagem
meio de cálculos de probabilidade o matemática desse processo só é possível
sistema calcula, para cada documento do somente através de simplificações
corpus, um valor numérico (similaridade), teóricas e da adequação de conceitos
que representa a provável relevância do tipicamente subjetivos como “necessidade
documento para a consulta. Esse valor é de informação”, “relevância”, além do
utilizado para ordenar os resultados da próprio conceito de “informação”. Esses e
busca. Tendo um primeiro conjunto de outros conceitos relacionados à

58 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

recuperação de informação são vagos e precisamente: 1,70m 1,80m ou 1,90m? A


imprecisos e devem ser representados afirmação de que uma determinada
por meio de uma lógica que consiga pessoa é bonita ou feita põe em jogo um
capturar tais características. grande conjunto de variáveis difíceis de
equacionar. Quando os seres humanos
3 LÓGICA FUZZY pensam em altura ou em beleza eles
normalmente não têm uma medida em
A lógica aristotélica é uma forte mente, mas uma definição nebulosa,
presença na cultura ocidental e está vaga.
profundamente enraizada em nossa forma O objetivo da lógica fuzzy é
de pensar. Uma determinada afirmação é capturar e operar com a diversidade, a
verdadeira ou falsa; uma pessoa ou é incerteza e as verdades parciais dos
amiga ou inimiga, feia ou bonita. Na fenômenos da natureza de uma forma
ciência a verdade e a precisão estão sistemática e rigorosa (SHAW; SIMÕES,
intimamente ligadas e são partes 1999).
indispensáveis do método científico. Se
algo não é absolutamente correto então 3.1 Conjuntos fuzzy
não é verdade. Porém, observa-se um
considerável descompasso entre a Zadeh (1965) propôs uma nova
realidade e essa visão bivalente do teoria de conjuntos na qual não existem
mundo. O mundo real contém uma descontinuidades, ou seja, não há uma
infinidade de gradações entre o preto e o distinção abrupta entre elementos
branco, entre o feio e o bonito, entre o pertencentes e não pertencentes a um
verdadeiro e o falso. O mundo real é determinado conjunto. Essa nova teoria é
multivalente e analógico. Verdade e derivada da lógica fuzzy: os Conjuntos
precisão absolutas existem apenas em Nebulosos (Fuzzy Sets).
casos extremos. Na teoria matemática dos
A própria comunicação humana é conjuntos, para indicar que um elemento
inerentemente vaga e imprecisa. Quando x pertence a um conjunto A, utiliza-se a
se diz que uma determinada pessoa é expressão x ∈ A. Poderia-se também
alta, o que se está querendo dizer utilizar a função µA(x), cujo valor indica se

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 59


Edberto Ferneda, Guilherme Ataíde Dias

o elemento x pertence ou não ao conjunto qual a transição de cada elemento de


A . Neste caso µA(x) é uma função não-membro para membro do conjunto é
bivalente que somente resulta 1 (um) ou gradual. Esse grau de imprecisão de um
zero, dependendo se o elemento x elemento pode ser visto como uma
pertence ou não ao conjunto A: medida de possibilidade, ou seja, a

1 se x ∈ A possibilidade de que um elemento seja


µ A ( x) = 
0 se x ∉ A membro do conjunto.
Na Figura 2 observa-se que, se o
elemento x2 for movido em direção ao Figura 3 - Representação das funções µalto e
µbaixo
elemento x1, no limite do conjunto A
ocorrerá subitamente uma alteração de
seu estado, passando de não-membro
para membro do conjunto A.

Figura 2 - Pertinência de um elemento em relação


a um conjunto

Fonte: elaborado pelos autores

No exemplo da Figura 3 o conjunto


dos diversos valores das alturas de uma
Fonte: Elaborado pelos autores
pessoa é denominado universo do

Na lógica fuzzy um elemento pode discurso. Todo conjunto fuzzy é na

ser membro de um conjunto apenas realidade um subconjunto do universo do

parcialmente. Um valor entre zero e um discurso. Um subconjunto A do universo

(1) indicará o quanto o elemento é do discurso U é caracterizado por uma

membro do conjunto. função µA que associa a cada elemento x

A teoria dos conjuntos fuzzy é de U um número µA(x) entre 0 e 1. Assim,


baseada no fato de que os conjuntos temos:
existentes no mundo real não possuem A = {x, µ A ( x)}| x ∈ U
limites precisos. Um conjunto fuzzy é um
agrupamento indefinido de elementos no

60 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

onde µA(x) resulta um valor numérico Utilizando a Figura 2, essas


entre zero e um que representa o quando operações são exemplificadas abaixo:
o elemento x pertence ao conjunto A.
Supondo que A seja o conjunto de
pessoas altas e x1 e x2 representam duas
pessoas com 190 cm e 170 cm de altura,
respectivamente. O subconjunto A será
caracterizado pela função µA(x), que A teoria fuzzy possibilita a definição

associa a cada elemento x1 e x2 do de classes de elementos em situações

universo do discurso um número, onde não é possível uma delimitação


precisa e natural de suas fronteiras. Este
respectivamente µA(x1) e µA(x2). No
ambiente teórico é capaz de representar
gráfico da Figura 2 teremos µA(x1) igual a
de forma mais eficiente a imprecisão das
0,75 (75%) e µA(x2) igual a 0,25 (25%).
entidades envolvidas em um sistema de
Portanto, no exemplo, uma pessoa com
recuperação de informação.
190cm é 75% alta e 25% baixa. Uma
pessoa com 170cm é apenas 25% alta e
4 A LÓGICA FUZZY NA
75% baixa. Ou seja, em um conjunto RECUPERAÇÃO DE INFORMAÇÃO
fuzzy um mesmo objeto pode pertencer a
dois ou mais conjuntos com diferentes Ao utilizarmos um sistema de
graus. Uma pessoa que mede 180 cm é recuperação de informação por vezes não
simultaneamente 50% alta e 50% baixa temos uma ideia clara, exata, da
(µalta(180)=µbaixa(180)=0.5). informação que precisamos, nem

As operações mais utilizadas nos tampouco temos conhecimento dos

conjuntos fuzzy são: complemento, união termos que devemos utilizar para traduzir

e interseção e são definidas como segue: nossa necessidade de informação em


Complemento µ A (u ) = 1 − µ A (u ) uma expressão de busca que resulte em
: um conjunto de documentos relevantes. O
União: µ A∪ B (u ) = max(µ A (u ), µ B próprio conceito de relevância é vago e
impreciso, além de ser pessoal. Assim,
Inserseção: µ A∩ B (u ) = min(µ A (u ), µ B (
um mesmo documento pode variar de
absolutamente relevante à totalmente

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 61


Edberto Ferneda, Guilherme Ataíde Dias

irrelevante, dependendo do usuário do considera que em muitos casos os


sistema (BORDOGNA; PASI, 2000). documentos podem estar estruturados em
Um exemplo de aplicação dos sub-partes lógicas ou seções, e que as
conjuntos fuzzy na recuperação de ocorrências de um termo podem assumir
informação é dado por Bordogna e Pasi significados diferentes dependendo da
(1995). Esses autores aplicam a lógica seção onde ele aparece. Um artigo
fuzzy da descrição dos documentos de científico, por exemplo, geralmente está
um sistema de recuperação de organizado em título, autores, palavras-
informação. chave, resumo, referências, etc. Uma
Um documento pode ser visto única ocorrência de um termo no título
como um conjunto fuzzy de termos, { µ(t)/t sugere que o artigo discorre sobre o
}, cujos pesos dependem do documento e conceito expresso pelo termo. As seções
do termo em questão, isto é: µ(t)=F(d,t). de um documento podem assumir
Portanto, a representação fuzzy de um diferentes graus de importância
documento é baseada na definição de dependendo da necessidade do usuário.
uma função F(d, t) que produz um valor Quando, por exemplo, o usuário está
numérico que representa o peso do termo procurando artigos escritos por uma
t para o documento d. determinada pessoa, a parte mais
O peso associado a um termo importante a ser analisada é a seção de
expressa o quanto esse termo é autores. Quando se procura artigos de um
significativo na descrição do conteúdo do determinado assunto, o título, as palavras-
documento. A qualidade da recuperação chaves, o resumo e a introdução
depende em grande parte da função assumem maior importância.
adotada para calcular os pesos dos Bordogna e Pasi (1995) propõem
termos de indexação (SALTON; uma representação fuzzy para
BUCKLEY, 1988). Geralmente esta documentos estruturados que pode ser
função baseia-se no cálculo da freqüência ajustada de acordo com os interesses do
de ocorrência dos termos em todo o texto, usuário. A importância de um termo t em
e fornece uma representação estática do um documento d é calculada pela
documento. O cálculo dos pesos não avaliação da importância de t em cada
uma das seções de d. Isto é feito através

62 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

da aplicação de uma função FSi(d, t) que que um termo deva aparecer para que o
expressa o grau de pertinência do termo t documento seja considerado relevante.
na seção Si do documento d, como Esta representação fuzzy de documentos
ilustrado na Figura 4. foi implementada em um sistema
denominado DOMINO (BORDOGNA et al,
Figura 4 - Representação fuzzy de um documento
estruturado 1990) e mostrou ser mais eficaz em
relação a outros tipos de representação
fuzzy.
Utilizando idéia semelhante,
Molinari e Pasi (1996) propõem um
método de indexação de documentos
HTML baseado na estrutura sintática
dessa linguagem de marcação. Para cada
seção de um documento HTML,
delimitada pelas marcações (tags), é
Fonte: adaptado (BORDOGNA; PASI, 1995)
associado um grau de importância. Pode-
Para cada seção Si o usuário pode se supor, por exemplo, que quanto maior
associar uma importância numérica αSi o tamanho dos caracteres de um trecho
que será usada para enfatizar a função do texto maior a importância atribuída a
FSi(t,d). Para se obter um grau de esse trecho. Da mesma forma, uma
pertinência ou relevância de um palavra em negrito ou itálico geralmente
determinado termo em relação a um representa um destaque dado pelo autor
documento, os graus de pertinência do da página HTML para uma palavra.
termo em cada uma das seções FS1(d,t), Assim, para cada tag pode ser associado
FS2(d,t),...FSn(d,t) são agregados por meio um valor numérico que expressa a sua
de uma função, que pode ser selecionada importância para o documento. O peso de
pelo usuário entre um conjunto pré- um determinado termo em relação a um
definido de “quantificadores lingüísticos” determinado documento é obtido através
tais como all, least one, at least about k, de uma função de agregação que
all (YAGER, 1988). O quantificador considera a importância de cada tag do
lingüístico indica o número de seções em documento onde o termo aparece.

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 63


Edberto Ferneda, Guilherme Ataíde Dias

5 CONSIDERAÇÕES FINAIS

A lógica fuzzy objetiva capturar e área de recuperação de informação.


operar com a imprecisão e a incerteza dos Apesar disso, a aplicação da lógica fuzzy
fenômenos da natureza de uma forma na recuperação de informação traz novos
sistemática e rigorosa. Ao considerar a conceitos e ideias promissoras que
subjetividade e imprecisão, a lógica fuzzy podem resultar avanços significativos
permite representar mais adequadamente nessa área.
o processo de recuperação de Espera-se que a partir do
informação. desenvolvimento de novos e mais
A utilização da lógica fuzzy na poderosos recursos computacionais,
recuperação de informação é discutida novas abordagens, métodos e modelos
principalmente em comunidades possam ser efetivamente aplicados aos
dedicadas às pesquisas sobre teoria problemas da recuperação de informação.
fuzzy, não tendo, na maior parte das Nesse contexto, a lógica fuzzy se
vezes, ligação com os pesquisadores da apresenta como uma alternativa
promissora para futuras pesquisas.

FUZZY LOGIC APPLIED TO INFORMATION RETRIEVAL

ABSTRACT
The information retrieval process involves subjective, imprecise and
vague concepts, such as "information need", "relevance", and the
very concept of "information". The main information retrieval models
treat these concepts accurately, represented by a single numerical
value. The fuzzy logic, while operating with the uncertainty of natural
phenomena in a systematic and rigorous manner, represents a
promising alternative to solve some problems related to information
retrieval. This paper presents the fuzzy logic and some examples of
its use in information retrieval systems (IRS).

Keywords: Information Retrieval. Fuzzy Logic. Fuzzy Sets.

64 InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013


A Lógica Fuzzy aplicada à recuperação de informação

REFERÊNCIAS

BAEZA-YATES, R.; RIBEIRO-NETO, B. MOLINARI, A. ; PASI, G. A Fuzzy


Modern Information Retrieval, 2.ed. Representation of HTML Documents for
[S.l.]: Addison-Wesley, 2011. Information Retrieval Systems. IEEE
INTERNATIONAL CONFERENCE ON
BORDOGNA, G.; PASI, G. Modeling FUZZY SYSTEMS. New Orleans, 1996.
vagueness in information retrieval. In: Proceedings… New Orleans: [S.n.], 1996.
CRESTANI, F.; AGOSTI, M.; PASI, G.
(eds) Lectures on Information Retrieval. MOOERS, C. Zatocoding applied to
[S.l.]: Springer-Verlag, 2000. mechanical organization of knowledge.
American Documentation, v. 2, n. 1,
BORDOGNA, G.; PASI, G. Controlling 1951.
Information Retrieval through a user
adaptive representation of documents. SALTON, G.; McGILL, J. M. Introduction
International Journal of Approximate to Modern Information Retrieval. New
Reasoning, v.12, 1995. York: McGraw-Hill, 1983.

BORDOGNA, G. et al. A system SALTON, G.; BUCKLEY, C. Term-


architecture for multimedia information Weighting Approaches in Automatic Text
retrieval. Journal of Information Science. Retrieval. Information Processing and
v. 16, n. 2, 1990. Management, v. 24, n. 5, 1988.
SARACEVIC, T. Information Science.
BUCKLAND, M. K. Information as thing. Journal of the American Society for
Journal of the American Society of Information Science, v. 50, n. 12, 1999.
Information Science, v.42, n.5, 1991.
SHAW, I. S.; SIMÕES, M. G. Controle e
BURKE, M. A. Organization of modelagem fuzzy. São Paulo: Edgard
multimedia resources: principle and Blücher, 1999.
practice of information retrieval.
Aldershot: Gower, 1999. YAGER, R.R. On ordered weighted
averaging aggregation operators in multi-
FERNEDA, E. Introdução aos Modelos criteria decision making, IEEE
Computacionais de Recuperação de transactions on Systems, Man and
Informação. Rio de Janeiro: Ciência Cybernetics, v. 18, 1988.
Moderna, 2012.
ZADEH, L.A. Fuzzy sets. Information
and Control, v. 8, n. 3, 1965

InterScientia, João Pessoa, v.1, n.1, p. 51-65, jan./abr. 2013 65

Você também pode gostar