Escolar Documentos
Profissional Documentos
Cultura Documentos
DA INFORMAÇÃO
BROWSING EM COMPUTADOR
B- Relação hierárquica
Gênero / espécie
Quase genérica: (Gato X Animal de estimação)
Verdadeiramente genérica: (Gato X Mamífero)
Todo / parte: (Sistema respiratório X Pulmão)
LINGUAGENS VERBAIS
Nas linguagens verbais, os assuntos são representados por palavras,
como por exemplo, um documento que trate da História da França, será
representado por FRANÇA – História.
São linguagens verbais as listas de cabeçalhos de assunto, os tesauros.
As LCA são arranjadas em ordem alfabética de cabeçalhos de assunto, e
têm abrangência geral de todas as áreas do conhecimento. Apresentam pouca
flexibilidade, pois são pré-coordenadas, havendo o estabelecimento de uma
ordem de citação entre os termos.
Os tesauros, por sua vez, são especializados numa determinada área do
conhecimento, e mais flexíveis, apresentando uma ordem alfabética e
sistemática entre os termos de assuntos, chamados descritores. Utiliza
termos simples, não havendo ordem de citação entre os termos, constituindo
uma linguagem pós-coordenada.
LINGUAGENS SIMBÓLICAS
LINGUAGENS PRÉ-COORDENADAS
Vantagens:
1- Um único lugar para um assunto composto: prover apenas um lugar
inequívoco para qualquer assunto composto;
2- Personalização da busca: fazer com que os usuários possam
familiarizar-se com o sistema e, com o tempo, passem a formular
questões de acordo com a linguagem do sistema;
3- Limitação do tamanho: a entrada única ajuda a evitar o crescimento
desmesurado do catálogo, tornando mais simples o seu uso e menos
dispendioso a sua manutenção;
4- Flexibilidade na estratégia de busca: podem ocorrer mudanças na
estratégia da pesquisa, podendo seguir um assunto mais restrito, mais
genérico ou correlato, sem ter que se começar pela estaca zero;
5- Busca sequencial manual rápida: as linguagens pré-coordenadas
funcionam melhor nesses sistemas tradicionais de registro de
documentos. Elas geram arquivos maiores, mas a busca manual,
quando realizada sequencialmente, é mais rápida;
6- Evita falsas associações e relações incorretas;
7- É mais precisa.
Desvantagens:
1- Dificuldade na representação dos diferentes sentidos do termo, e das
relações entre os termos;
2- Ordem fixa: os termos somente podem ser listados numa determinada
sequência;
3- Pouca flexibilidade na busca: é quase impossível fazer a combinação
entre os termos no momento da busca;
4- Tamanho e custo: o uso da “entrada múltipla” encarece o sistema e
aumenta o tamanho do índice.
ORDEM DE CITAÇÃO
LINGUAGENS PÓS-COORDENADAS
Vantagens:
1- Independência da ordem de citação;
2- Permissão de uma maior revocação;
3- Mais eficiência, melhorando a qualidade e diminuindo o custo nas
buscas automatizadas.
Desvantagens:
1- Eficiência ligada à automação: as linguagens de indexação pós-
coordenadas são consideradas mais eficientes apenas quando usadas
em sistemas automatizados;
2- Combinação dos termos somente na saída, podendo-se obter
associações falsas e incorretas;
3- Oferecimento de baixa precisão.
FIM ESPECIALIZAÇÃO
LINGUAGEM DE INDEXAÇÃO
2- Exaustividade:
A extensão (profundidade) com que analisamos um
determinado documento;
Está relacionada à quantidade de pontos de acessos atribuídos
ao documento;
O seu oposto concerne à seletividade;
ELABORAÇÃO DE RESUMOS
Deve-se evitar:
1- Símbolos e contrações que não sejam de uso corrente;
2- Fórmulas, equações, diagramas, etc., que não sejam
absolutamente necessários;
Extensão:
1- Trabalhos acadêmicos (monografias, dissertações e teses) e
relatórios técnico-científicos: de 150 a 500 palavras;
2- Artigos de periódicos: de 100 a 250 palavras;
3- Indicações breves: de 50 a 100 palavras (ABNT/NBR 6028,
2003).
FIM – APOSTILA 1
A RECUPERAÇÃO DA INFORMAÇÃO E OS SISTEMAS DE
RECUPERAÇÃO DA INFORMAÇÃO – SRI
O PROCESSO DE INDEXAÇÃO
ANÁLISE DE ASSUNTO
2- EXTRAÇÃO DE CONCEITOS:
Para definir em termos adequados o assunto de um texto, é necessário
que primeiro se extraiam os conceitos que nele estão contidos. Se, para fazer
uma análise conceitual, devem-se extrair conceitos, pergunta-se: o que é um
conceito?
Conceitos são unidades do conhecimento identificadas através de
enunciados verdadeiros sobre um item de referência, representados por um
termo ou palavra. É uma idéia, uma representação mental que nos permite
categorizar objetos. Existem tipos de conceitos, como os individuais
(representados por nomes de coisas individuais, em linguagem simples) os
gerais (representados por nomes de classes de coisas e podem ser expressos
em uma multiplicidade de expressões lexicais e não lexicais) os científicos
(podem ser aprendidos na vida acadêmica, e, depois, são estabelecidas
conexões entre eles e os eventos da vida diária) os cotidianos (são objetos
usados normalmente, como roupas, carros).
A formação de conceitos é um processo que envolve discriminação e
agrupamento. Os fatores que afetam o processo são experiência prévia,
tempo, fatores sociais, etc.
Conceitos, palavras e significados: Não há uma correspondência exata
entre palavras e conceitos; há pelo menos dois conceitos que se apresentam
quando vemos a palavra volume. Não somente as palavras estimulam
diferentes conceitos para indivíduos diferentes, como, para o mesmo
indivíduo, de acordo com as circunstâncias. Uma das razões para os
diferentes significados que diferentes palavras têm, para diferentes pessoas,
é que há duas espécies de significado: denotação e conotação. Denotação de
uma palavra é a coisa que ela representa ou a que se refere. Apontando para
um gato, eu posso dizer: “Isto é um gato”. Já a conotação de uma palavra é
altamente individual e pessoal. Se eu gosto de gatos, minha conotação de
“gato” inclui a noção de amizade, calor, etc. Se não, inclui mau cheiro e grito
à noite.
Tipos de relações entre conceitos:
1- Relação de equivalência
Sinônimos: Meio ambiente X Ecologia
Quase sinônimos: Datiloscopia X Impressão Digital
Grafias diferentes: Contato X Contacto
Abreviaturas e Acrônimos: ONU X Organização das
Nações Unidas
Traduções: Recall X Revocação
2- Relação hierárquica
Gênero/espécie: Quase genérica: (Gato X Animal de
estimação) - Verdadeiramente genérica: (Gato X Mamífero)
Todo/parte (Sistema respiratório X Pulmão)
3 - DETERMINAÇÃO DA ATINÊNCIA:
LINGUAGENS DE INDEXAÇÃO
.
A linguagem de indexação é aquela cujo objetivo é representar o
conteúdo temático dos documentos. Alguns sistemas utilizam a linguagem
natural (escrita e falada, pouco usada por apresentar grande inconsistência)
como linguagem de indexação e, nesses casos, adotam como termos
indexadores os termos na forma como aparecem nos documentos, sem
modificações. Isso traz alguns problemas, como diferentes autores usando
palavras diversas para expressarem o mesmo conceito (dispersão
terminológica) ou o caso do uso de diferentes estruturas para expressarem a
mesma idéia (dispersão sintática).
No entanto, comumente, são utilizadas linguagens artificiais. Essas
refletirão um vocabulário controlado, para o qual foram tomadas decisões
cuidadosas sobre os termos a serem usados, o significado de cada um, e os
relacionamentos que apresentam.
Uma linguagem de indexação deve procurar indicar os relacionamentos
entre os termos no seu vocabulário. Por exemplo, se um sistema inclui os
termos ENSINO MÉDIO e ESCOLAS PROFISSIONALIZANTES, pode-
se indicar a relação entre esses dois termos, pois um usuário, procurando
informação sobre ensino médio, poderá encontrar documentos relevantes
sob o termo escolas profissionalizantes que, usualmente, se ocupam também
do ensino médio. Uma linguagem de indexação que tem um vocabulário
controlado e que tenta indicar as relações entre os termos no seu vocabulário
é chamada estruturada.
Objetivos das Linguagens de indexação:
SISTEMAS DE CLASSIFICAÇÃO
Se dividem em:
A- De acordo com a apresentação dos assuntos: enumerativos -
procuram indicar todos os assuntos e todas as combinações
possíveis entre eles e apresentar os símbolos que os representam
prontos para serem usados. Ex: Classificação Decimal de Dewey
(CDD); e os analítico-sintéticos – ou facetados - apresentam listas
de assuntos – facetas – acompanhados de símbolos e deixam ao
classificador a tarefa de combinar os símbolos para apresentar os
assuntos compostos. Ex: Colon Classification (Classificação de
Dois Pontos) e Bliss Classification.
B- De acordo com a abrangência: gerais – todas as classes do
conhecimento. Ex: Dewey, CDU, Colon, LC; e especiais - classes
especiais de assunto – Ex: Coates (Música).
LINGUAGENS PRÉ-COORDENADAS
Características da pré-coordenação:
Vantagens:
Desvantagens:
Opções de ordem de citação são dadas por teóricos da área, como Kaiser
(1911) – “o concreto, depois o processo” – Indexação de livros, seria Livros
- Indexação; por Coates (1960) – Coisa – Parte – Material – Ação. Uma das
opções, é a utilização das Cinco Categorias Fundamentais, estabelecidas por
Ranganathan: PMEST - Personalidade (núcleo do assunto), Matéria, Energia
(processo), Espaço e Tempo.
Características da pós-coordenação:
Vantagens:
Desvantagens:
CONSISTÊNCIA DA INDEXAÇÃO
FIM DA APOSTILA
TESAURO
Terminologia:
Tesauro
Thesauro
Linguagem de Indexação
Vocabulário Controlado
Microtesauro
Macrotesauro
Frutas Cítricas
TG Frutas
TE Laranja
TE Limão
Laranja
TG Frutas Cítricas
Limão
TG Frutas Cítricas
Produtos Agrícolas
TE Frutas
Características do Tesauros:
Objetivos do Tesauros:
1- Análise do documento;
2- Identificação de seu conteúdo;
3- Tradução para os termos do tesauro de acordo com a;
4- Política de indexação.