DSpace About DSpace Software
 

DSpace Biblioteca Universidad de Talca (v1.5.2) >
Facultad de Ingeniería >
Memorias de pregrado Ingeniería Civil en Computación >

Please use this identifier to cite or link to this item: http://dspace.utalca.cl/handle/1950/10431

Title: Gestión de datos biológicos usando bases de datos RDF
Authors: Villarroel Valenzuela, Jacqueline Andrea
Angles Rojas, Renzo (Prof. Guía)
Arenas Salinas, Mauricio (Prof. Informante)
Issue Date: 2014
Publisher: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Abstract: La gestión de datos biológicos es una tarea ardua y complicada debido a la gran cantidad de información que se encuentra disponible y que es necesario explorar. Protein Data Bank (PDB) es una fuente de datos biológica que contiene información sobre proteínas. Actualmente, es muy común usar sistemas de bases de datos relacionales para gestionar datos PDB, sin embargo esto no resulta ser tan apropiado debido principalmente a la organización con estructura de grafo que presentan las proteínas. Esta memoria se enfoca en modelar los datos PDB usando el modelo de datos RDF. Resource Description Framework (RDF) define una manera estandar para modelar datos con estructura de grafo, los cuales pueden ser consultados usando el lenguaje de consulta SPARQL. RDF es un modelo de datos estándar que posibilita el intercambio y la reutilización de metadatos estructurados, sin las ambigúedades producidas por la procedencia de los datos desde distintas fuentes. Debido a esto es que los nombres en RDF deben ser globales, refiriéndose a que no se debe escoger un nombre que alguien más haya podido concebir para referirse a algo diferente. El modelo de datos RDF se basa en escribir recursos, los cuales son identificados por Identificadores Uniformes de Recursos (URIs).De manera específica, este proyecto partió con el estudio del formato de archivos PDB, el cual está compuesto por varias secciones. La información disponible en cada sección fue modelada a través de un diagrama entidad relación para su mejor comprensión. Habiendo comprendido el contenido de un archivo PDB, y guiados por las indicaciones de investigadores del área de bioinformática, se selección un fragmento de datos correspondiente a proteínas, aminoácidos y átomos, los cuales fueron modelados usando el modelo de datos RDF. A continuación se implementó una herramienta que permite generar un archivo de datos RDF desde un archivo de datos PDB. Con la finalidad de evaluar la usabilidad de los datos, se diseñaron algunas consultas de prueba usando el lenguaje SPARQL. En términos de experimentos, un conjunto de proteínas fueron almacenadas en un sistema de bases de datos RDF,y luego se ejecutaron las consultas de prueba con la finalidad de medir el tiempo de respuesta. Finalmente, se implementó una herramienta que provee una interfazsencilla para ejecutar las consultas de prueba.La principal contribución de este trabajo es el manejo de datos biológicos, ya que la manipulación y análisis de los datos es menos compleja, comparado con el método tradicional que hoy en día utilizan los bioinformáticos. Esto permite que la búsqueda de patrones estructurales en las proteínas sea más rápido sin la necesidad de procesar los datos de forma manual y a la vez cuenta con un lenguaje de consulta estructurado llamado SPARQL
Description: 164 p.
URI: http://dspace.utalca.cl/handle/1950/10431
Appears in Collections:Memorias de pregrado Ingeniería Civil en Computación

Files in This Item:

File Description SizeFormat
villarroel_valenzuela.pdfTabla de Contenido91.64 kBAdobe PDFView/Open
villarroel_valenzuela.pdfResumen18.55 kBAdobe PDFView/Open
villarroel _valenzuela.htmlTabla de Contenido3.55 kBHTMLView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2009  The DSpace Foundation - Feedback