DSpace About DSpace Software
 

DSpace Biblioteca Universidad de Talca (v1.5.2) >
Facultad de Ingeniería >
Memorias de pregrado Ingeniería Civil en Computación >

Please use this identifier to cite or link to this item: http://dspace.utalca.cl/handle/1950/10068

Title: Clasificación online usando bosques aleatorios bayesianos
Authors: González Pichuante, Javier Ignacio
Astudillo Hernández, César Alejandro (Prof. Guía)
Keywords: Online Naive Bayes Classifier
Aprendizaje en línea
Cambio de concepto
Histograma Dinámico
Clasificación de Patrones
Issue Date: 2013
Publisher: Universidad de Talca (Chile). Escuela de Ingeniería Civil en Computación.
Abstract: El problema de clasificación consiste en identificar la categoría a la cual pertenece una instancia no vista con anterioridad a partir de un conjunto de instancias cuya categoría respectiva se conoce a priori. La mayoría de estos clasificadores consideran que la distribución estadística de los datos se mantiene constante a través del tiempo y que se tiene acceso a las instancias en todo momento. Sin embargo, en la actualidad ha surgido una nueva forma de obtener observaciones, conocido como flujo de datos. Este flujo se caracteriza por presentar nuevos datos a una alta tasa de velocidad y en grandes cantidades. Esta situación dificulta el normal funcionamiento de un clasificador estándar, por lo tanto es necesario trabajar este flujo de datos bajo un acercamiento online.En este trabajo presentamos dos algoritmos de clasificación online específicamente diseñado para el caso en que la distribución de datos es dinámica. En primer lugar presentamos el algoritmo llamado Online Naive Bayes Classifier (ONBC) el cual corresponde a un clasificador estadıstico basado en el teorema de Bayes que realiza supuestos respecto a la independencia de los atributos. Este clasificador genera dinámicamente un modelo de predicción apoyandose de histogramas en línea e incorpora la identificación automáticamente de cambios en la distribución de datos dentro del flujo de datos. El segundo clasificador llamado Online Naive Bayes Forest (ONBF) toma como base el algoritmo ONBC y los principios de Random Forest para crear un bosque de ONBCs. Este bosque realiza predicciones independientes entre sí para luego agruparlas y establecer una predicción final.Estas propiedades han sido confirmadas experimentalmente sobre numerosos conjuntos de datos pertenecientes a distintos dominios y cuyos resultados se resumen en la presente memoria.Palabras claves: Online Naive Bayes Classifier, Aprendizaje en línea, Cambio de concepto, Histograma Dinámico, Clasificación de Patrones/ ABSTRACT:The classification problem is to identify the category to which an instance previously unseen belongs from a set of instances whose respective category is known a priori. Most of these classifiers consider the statistical distribution of the data remains constant over time and that you have access to the instances at all times. Nowadays, there is a new way to obtain observations, known as the data stream. This strem is characterized by new data arriving at a high speed rate and in large quantities. This impedes the normal functioning of a standard classifier. Therefore we need to take an online approach in order to work on this data flow.In this document we present two online classification algorithms specifically designed for the case where the data distribution is dynamic. We first present the algorithm called Online Naive Bayes Classifier (ONBC) which corresponds to a statistical classifier based on Bayes’ theorem that makes assumptions about the independence of the attributes. This classifier dynamically generates a prediction model using online histograms and incorporates the automatic detection of changes in the distribution of data within the data stream. The second algorithm is called Online Naive Bayes Forest (ONBF) and its based on the algorithm ONBC and also takes the Random Forest principles in order to create a forest of ONBCs. This forest makes independent predictions among the elements within and then these are grouped and a finalprediction is made.These properties have been confirmed experimentally on artificial data sets and whose results are summarized presently.Keywords: Online Naive Bayes Classifier, Online Learning, Concept Drift, Online Histograms, Pattern Classification.
Description: 83 p.
URI: http://dspace.utalca.cl/handle/1950/10068
Appears in Collections:Memorias de pregrado Ingeniería Civil en Computación

Files in This Item:

File Description SizeFormat
gonzalez_pichuante.pdfTabla de Contenido25.87 kBAdobe PDFView/Open
gonzalez_pichuante.pdfResumen19.5 kBAdobe PDFView/Open
gonzalez_pichante.htmlLink a Texto Completo3.54 kBHTMLView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2009  The DSpace Foundation - Feedback