Você está na página 1de 4

NDICES INVERTIDOS

Investigacin 1

Noem Guadalupe Cervantes Manrquez


Cod. 209708472
Taller de Estructura de Archivos

ndices invertidos
Un ndice Invertido es un mecanismo orientado a palabras para indexacin de documentos.
Es la estructura ms elemental para recuperacin de palabras. Est formado por 2
elementos: el vocabulario (conjunto de trminos distintos del texto) y las listas de
ocurrencias (para cada termino, la lista de documentos donde este aparece).
Un ndice invertido es una estructura de datos de ndice de almacenamiento de una
asignacin de contenido, como palabras o nmeros, a sus ubicaciones en un archivo de base
de datos o en un documento o conjunto de documentos. El objetivo de un ndice invertido
es permitir rpidas bsquedas de texto completo, a un costo de procesamiento mayor
cuando se aade un documento a la base de datos. El archivo invertido puede ser el propio
archivo de base de datos, en lugar de su ndice. Es la estructura de datos ms popular
utilizado en los sistemas de recuperacin de documentos, que se utiliza a gran escala.
A los archivos que son como los ndices secundarios, en los que una llave secundaria lleva
a un conjunto de una o ms llaves primarias, se les llama listas invertidas. El sentido en el
que se invierte una lista debe quedar claro si se considera que se trabaja retrocediendo de
una llave secundaria a la llave primaria y al registro mismo.

Caractersticas
* Un ndice invertido nivel de registro contiene una lista de referencias de los documentos
para cada palabra.
* Palabras ndice invertido nivel contiene adems las posiciones de cada palabra dentro de
un documento. Esta ltima forma ofrece ms funcionalidad, pero necesita ms tiempo y
espacio para crear.

Construccin
Se recorre la coleccin de textos secuencialmente. Para cada trmino, se busca en el
vocabulario. Si no existe, se agrega al vocabulario con una lista de ocurrencias vaca. Se
agrega el documento actual al final de la lista de ocurrencias del trmino. Una vez leda la
coleccin, el ndice se graba en disco. El mayor problema que se presenta en la prctica a
la hora de construir un ndice invertido es que la RAM se termine antes de poder procesar

todo el texto. En este caso, cada vez que la RAM se agota, se graba en disco un ndice parcial
y se libera la memoria. Al final, se realiza un merge de los ndices parciales. La mezcla
consiste en combinar los vocabularios ordenados. Si aparece el mismo trmino en ambos
ndices se mezclan sus listas de ocurrencias.

Bsqueda
Bsqueda en el vocabulario: Se buscan las palabras y los patrones de la consulta, Las
consultas por frases y proximidad se dividen en palabras. Recuperacin de ocurrencias: Se
recupera la lista de ocurrencias de las palabras encontradas. Manipulacin de ocurrencias:
Resolucin de operaciones booleanas, consultas de frases, proximidad, etc. La bsqueda
siempre comienza en el vocabulario, por lo que es interesante tenerlo en un fichero
separado. As es posible que quepa en memoria incluso en caso de colecciones grandes.
La bsqueda de trminos en el vocabulario puede realizarse utilizando una estructura como
hashing o arboles B. Si los trminos se almacenan en orden lexicogrfico, en lugar de orden
de entrada, se reduce el espacio y se mejora el rendimiento, dado que se pueden aplicar
bsquedas binarias.

NRR
El nmero relativo de registro es un nmero que indica la posicin fsica del registro (lo de
fsico es relativo) dentro del archivo. Se le conoce como relativo porque indica el
desplazamiento que debe hacerse desde el origen del archivo hasta el registro en cuestin
(imagina que es como el ndice de un vector aplicado a un archivo)
Por ejemplo:
[1] juan, 12, activo<EOR>
[2] pedro, 21, anulado<EOR>
[3] susana, 15, activo<EOR>
[4] manuel, 27, activo<EOR>
[5] felipe, 15, anulado<EOR>

Mostrar el NRR de los registros que estn anulados: 2, 5


Este nmero toma mucha importancia en los archivos de organizacin relativa (acceso
directo) con espacio reducido (o de tamao definido) en los cuales es necesario crear una
buena estrategia de colocacin del registro dentro del archivo para su fcil acceso y el mejor
uso del espacio disponible (y como la colocacin se realiza mediante el NRR es ah el porqu
es importante este nmero).

Você também pode gostar