Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch

García-Chicangana, David-Santiago; Cobos-Lozada, Carlos-Alberto; Mendoza-Becerra, Martha-Eliana; Niño-Zambrano, Miguel-Ángel; Martínez-Figueroa, James-Mauricio

doi:10.14483/23448350.18352

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Revista científica

Print version ISSN 0124-2253On-line version ISSN 2344-8350

Abstract

GARCIA-CHICANGANA, David-Santiago et al. Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Rev. Cient. [online]. 2022, n.43, pp.64-79. Epub Feb 18, 2022. ISSN 0124-2253. https://doi.org/10.14483/23448350.18352.

Este artículo presenta un servicio de clasificación documental que permite a los sistemas de gestión documental de múltiples clientes brindar una mayor confianza y credibilidad sobre los tipos documentales asignados a los documentos que cargan los usuarios. La investigación fue realizada a través de las fases de CRISP-DM en las que se evaluaron dos modelos de representación de documentos, bolsas de palabras con n-gramas acumulativos y BERT (propuesto recientemente por Google), y cinco técnicas de aprendizaje de máquina, perceptrón multicapa, bosques aleatorios, k vecinos más cercanos, árboles de decisión y un clasificador bayesiano ingenuo. Los experimentos se realizaron con datos de dos organizaciones y los mejores resultados fueron los obtenidos por el perceptrón multicapa, los bosques aleatorios y los k vecinos más cercanos, con resultados muy similares de exactitud general y recuerdo por clase para los tres algoritmos. Los resultados no son concluyentes para ofertar el servicio a múltiples clientes con un solo modelo, ya que esto depende de los documentos y tipos documentales de cada uno de ellos. Por lo anterior, se ofrece un servicio basado en una arquitectura de microservicios que permite a cada organización la creación de su propio modelo, el monitoreo de su rendimiento en producción y su actualización cuando el rendimiento no sea adecuado.

Keywords : analítica de datos; bosques aleatorios; CRISP-DM; k vecinos más cercanos; perceptrón multicapa; sistema de gestión documental; trigramas..

· abstract in English | Portuguese · text in Spanish · Spanish (

pdf )