DSpace About DSpace Software
 

DSpace Biblioteca Universidad de Talca (v1.5.2) >
Facultad de Ingeniería >
Memorias de pregrado Ingeniería Civil en Computación >

Please use this identifier to cite or link to this item: http://dspace.utalca.cl/handle/1950/8666

Title: Recopilación de datos en línea para el refinamiento de traducciones automáticas, utilizando la web como base de datos
Authors: Valdebenito Sandoval, Felipe Andrés
Meza Montoya, Federico (Prof. Guía)
Keywords: Indexación
Traductores Programas para Computadores
Issue Date: 2011
Publisher: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Abstract: En esta memoria se propone el diseño de un Crawler capaz de recopilar de forma automática frases en Español desde la Web, con el prop osito de utilizarlas para el renacimiento basado en frases de traducciones automáticas. El Crawler construido se basa en la arquitectura y comportamiento de Web Crawlers, los cuales recolectan información de paginas Web para m aquinas de búsqueda. Para recorrer la Web en busca de frases se consideraron aspectos de la misma tales como su gran tamaño y rápido cambio de contenidos. El diseño propuesto utiliza técnicas de computación paralela y distribuida para realizar la planificación URLs, recolección autom atica de frases en Español y almacenamiento de informacion. Se presenta un algoritmo para detectar el idioma del texto. Dicho algoritmo se basa en la cantidad de Stopwords que posee el texto para realizar la detección. Ademas, se realizo un breve estudio el cual permite determinar la cantidad de Stopwords que se utilizan en el idioma Español, mejorando la precisión en el proceso de detección de idioma. El Crawler construido es capaz de descargar varias paginas Web al mismo tiempo, lo que puede provocar saturacion en los servidores Web. Con la nalidad de evitar este problema se diseño un algoritmo de planicacion de URLs por visitar. Finalmente, se evalúa el desempeño del Crawler construido. Ademas, se menciona el trabajo futuro que puede surgir de este trabajo.ABSTRACT: This project shows the design to propose that a Crawler may automatically collect phrases in Spanish from the Web, in order to use the re nement based on an automatic translation of the phrases. The Crawler is constructed based on the architecture and behavior of Web Crawlers, which collect information from Web pages for search engines. To visit the Web and obtain phrases, there are many considered aspects, such as its large size and rapid change of content. The proposed design uses techniques of parallel computing, to plan and perform the automatic collection of phrases in Spanish, and store it to the hard drive. An algorithm was used to detect the language of the text. The algorithm is based on the amount of Stopwords to make the detection. A brief study was performed to allow us to determine the number of Stopwords used in the Spanish language.The built Crawler is able to download many Web pages at the same time, which can generate saturation in the Web server. To avoid this problem an algorithm was designed for the plani cation of the URLs. Finally an evaluation was performed of the Crawler constructed. In addition, it is mentioned the work that may arise based on the work that was realized.
Description: 79 p.
URI: http://dspace.utalca.cl/handle/1950/8666
Appears in Collections:Memorias de pregrado Ingeniería Civil en Computación

Files in This Item:

File Description SizeFormat
valdebenito_sandoval.pdfTabla de Contenidos92.92 kBAdobe PDFView/Open
valdebenito_sandoval.pdfResumen20.03 kBAdobe PDFView/Open
valdebenito_sandoval.htmlLink a Texto Completo2.78 kBHTMLView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2009  The DSpace Foundation - Feedback