DSpace About DSpace Software
 

DSpace Biblioteca Universidad de Talca (v1.5.2) >
Facultad de Ingeniería >
Memorias de pregrado Ingeniería Civil en Computación >

Please use this identifier to cite or link to this item: http://dspace.utalca.cl/handle/1950/12118

Title: Árboles auto-organizativos para la clasificación de datos atípicos
Authors: Aros Mendoza, Javier Ignacio
Astudillo Hernández, César Alejandro (Prof. Guía)
Keywords: SOM
TTOSOM
Aprendizaje automático
OCC
AUC
Issue Date: 2017
Publisher: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Abstract: La agrupación y clasificación son problemas estudiados en Machine Learning. La agrupación corresponde al problema de identificar dentro de un conjunto de datos las clases involucradas, para aglutinar estas instancias no existe información de las clases y en ocasiones se desconoce la cantidad de categorías posible. Esto consiste en asignar elementos similares a un grupo y a la vez asignar a grupos distintos instancias distintas. La clasificación corresponde a determinar mediante una clase conocida, una nueva instancia sin clasificar, determinando si esta última corresponde a la clase ya mencionada o es un elemento extraño, esto se realiza utilizando información estadística de los datos. Con este trabajo se presenta el desarrollo e implementación de Complete k-ary Tree SOM (CKTSOM), un algoritmo con la capacidad de agrupar y clasificar, esté utiliza una estructura de árbol capaz de aprender la distribución de un conjunto de datos de entrada. La estructura del árbol siempre es completa, esto significa que todos los nodos hojas tienen la misma altura. Estos nodos se pueden asociar a neuronas por su capacidad de aprender de la información presentada. En este algoritmo las neuronas compiten para poder representar un dato de entrada, pero hay que destacar un cambio en el paradigma, donde solo competirán las neuronas hojas. Esto es un cambio drástico ya que comúnmente toda la estructura es utilizada para representar la instancia. La búsqueda generada con este cambio de paradigma produce una búsqueda logarítmica que nos entrega un resultado aproximado, este es analizado y verificado para comprender su calidad. Por último se presenta la implementación del algoritmo para clasificar distintos conjuntos de datos que varían en cantidad de instancias y dimensiones. Esta implementación fue utilizada para comparar el algoritmo implementado con otros clasificadores. Para comparar el desempeño se utiliza la medida AUC que nos proporciona el rendimiento del algoritmo, un AUC menor a 0:5 indica que el clasificador es peor que una elección aleatoria. / Abstract: Grouping and classification are problems studied in Machine Learning. The grouping corresponds to the problem of identifying within a set of data the classes involved, to agglutinate these instances there is no information of the classes and sometimes the number of possible categories is unknown. This consists of assigning similar elements to a group and at the same time assigning different instances to different groups. The classification corresponds to determine by means of a known class, a new instance without classifying, determining if this last one corresponds to the class already mentioned or it is a strange element, this is made using statistical information of the data. This work presents the development and implementation of Complete k-ary Tree SOM (CKTSOM), an algorithm with the ability to group and classify, using a tree structure capable of learning the distribution of a set of input data. The tree structure is always complete, this means that all leaf nodes have the same height. These nodes can be associated with neurons because of their ability to learn from the information presented. In this algorithm neurons compete to be able to represent an input data, but it is necessary to highlight a change in the paradigm, where only leaf neurons will compete. This is a drastic change since commonly the whole structure is used to represent the instance. The search generated with this paradigm shift produces a logarithmic search that gives us an approximate result, this is analyzed and verified to understand its quality. Finally we present the implementation of the algorithm to classify different sets of data that vary in number of instances and dimensions. This implementation was used to compare the implemented algorithm with other classifiers. To compare the performance we use the AUC measure that provides the performance of the algorithm, an AUC less than 0:5 indicates that the classifier is worse than a random choice.
Description: 59 p.
URI: http://dspace.utalca.cl/handle/1950/12118
Appears in Collections:Memorias de pregrado Ingeniería Civil en Computación

Files in This Item:

File Description SizeFormat
aros_mendoza.pdfTabla de Contenidos88.29 kBAdobe PDFView/Open
aros_mendoza.pdfResumen40.98 kBAdobe PDFView/Open
tutcur-20170002.pdfLink a Texto Completo1.21 MBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2009  The DSpace Foundation - Feedback