DSpace About DSpace Software
 

DSpace Biblioteca Universidad de Talca (v1.5.2) >
Facultad de Ingeniería >
Memorias de pregrado Ingeniería Civil en Computación >

Please use this identifier to cite or link to this item: http://dspace.utalca.cl/handle/1950/10452

Title: Uso del método de compresión Re-Pair para disminuir el espacio requerido por los índices utilizados en espacios métricos basados en permutaciones
Authors: Pino Durán, Felipe Ignacio
Paredes Moraleda, Rodrigo (Prof. Guía)
Angles Rojas, Renzo (Prof. Informante)
Allendes Osorio, Rodolfo Sebastian (Prof. Informante)
Keywords: Espacio Métrico
Índice basado en Permutaciones
Re-Pair
Issue Date: 2014
Publisher: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Abstract: En bases de datos de objetos provenientes de un espacio métrico, las consultas de elementos se hacen por medio del método de búsqueda por proximidad o similitud entre los elementos. Para esto es necesario la indexación de estas bases de datos. El índice basado en permutaciones (IBP) resulta muy eficaz, con respecto a otros algoritmos de búsqueda por proximidad, para resolver este tipo de consultas. Pero en la práctica, los IBPs requieren utilizar una excesiva cantidad de espacio en memoria principal. Por consiguiente, el objetivo principal de esta memoria es comprimir estos índices aplicando el método de compresión Re-Pair. La comprención con Re-Pair consiste en reemplazar los pares de símbolos que más se repiten en las perforaciones con nuevos s´ımbolos simples. Para lograr esto, se implementa un algoritmo recursivo con estructuras de datos tales como Heaps Binarios y Tablas de Hash, con el fin de lograr una eficiente compresión, dado que por lo general se tienen que revisar millones de símbolos. El método propuesto se compara con la alternativa de compactar los IBPs. Esto consiste en guardar la representación binaria de cada IBP en una variable de máquina. La concatenación de la secuencia de bits formada representa un número considerado como índice compacto. Las pruebas experimentales se realizan con bases de datos vectoriales de baja y alta dimensionalidad. En donde se mide y compara el rendimiento y el grado compresión de los algoritmos. Re-Pair resulta ser muy efectivo para dimensionalidades bajas (en efecto, comprime hasta en un 92% en dimensió) El peor escenario evaluado, que corresponde a dimensión 1024, el IBP se comprime a un 46% del espacio original, mientras que el algoritmo compacto lo reduce a un 25%, pero tiene la desventaja que la descompactación del IBP es mucho más lenta que su descompresión. Para terminar, es necesario se˜nalar que reducir el espacio utilizado por el IBP en sí es bueno porque permite trabajar con volúmenes de datos más grandes sin tener que usar espacio en disco como memoria virtual. Hay que recordar que esto último mermaría considerablemente en el rendimiento de las consultas por el costo que emplearía el sistema operativo al realizar la paginación de memoria principal y virtual. Palabras claves: Espacio Métrico, Índice basado en Permutaciones, Re-Pair./ ABSTRACT: In object database from a metric space, queries made through elements of the search method by proximity or similarity between elements. This requires indexing such databases. The permutation-based index (IBP) is very e↵ective, with respect to other proximity search algorithms to solve such queries. But in practice, use IBPs require an excessive amount of space in main memory. Therefore, the main objective of this document is to compress these indexes using the compression methodRe-Pair. Compression with Re-Pair is to replace pairs of symbols that are repeated in permutations with new simple symbols. To accomplish this, a recursive algorithm is implemented using data structures such as Hash Tables and Heaps Binary, in order to achieve efficient compression, since they usually have to review million symbols. The proposed method is compared with the alternative of compact IBPs. This is to save the binary representation of each IBP variable machine. Concatenating the bit string formed represents an number considered compact index. Experimental testing with vector data bases low and high dimensionality. Where it is measured and compared to performance and degree of compression algorithms. Re-Pair is very e↵ective for low dimensionality (in fact compressed to 92% in dimension). The worst scenario evaluated, corresponding to dimension 1024, IBP is compressed to 46 % of the original space while the compact algorithm reduces to 25 %, but has the disadvantage that the de-compaction IBP is much slower its decompression. Finally, it should be noted that reducing the space used by the IBP itself is good because it allows you to work with bigger data volumes without using disk space as virtual memory. Remember that the latter significantly undermine the performance of queries for the cost that it would use the operating system to paging the main memory and virtual memory. Keywords: Metric Space, Permutation based Index, Re-Pair.
Description: 78 p.
URI: http://dspace.utalca.cl/handle/1950/10452
Appears in Collections:Memorias de pregrado Ingeniería Civil en Computación

Files in This Item:

File Description SizeFormat
pino_duran.pdfTabla de Contenido109.51 kBAdobe PDFView/Open
pino_duran.pdfResumen81.33 kBAdobe PDFView/Open
pino_duran.htmlLink a Texto Completo3.55 kBHTMLView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2009  The DSpace Foundation - Feedback