SciELO - Scientific Electronic Library Online

 
 número43Apoiar a implantação de processos no contexto de pequenas organizações de softwareModelo de referência ágil e escalonado para a indústria de software índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Em processo de indexaçãoCitado por Google
  • Não possue artigos similaresSimilares em SciELO
  • Em processo de indexaçãoSimilares em Google

Compartilhar


Revista científica

versão impressa ISSN 0124-2253versão On-line ISSN 2344-8350

Resumo

GARCIA-CHICANGANA, David-Santiago et al. Servicio de clasificación documental multi cliente basado en técnicas de aprendizaje de máquina y Elasticsearch. Rev. Cient. [online]. 2022, n.43, pp.64-79.  Epub 18-Fev-2022. ISSN 0124-2253.  https://doi.org/10.14483/23448350.18352.

Este artículo presenta un servicio de clasificación documental que permite a los sistemas de gestión documental de múltiples clientes brindar una mayor confianza y credibilidad sobre los tipos documentales asignados a los documentos que cargan los usuarios. La investigación fue realizada a través de las fases de CRISP-DM en las que se evaluaron dos modelos de representación de documentos, bolsas de palabras con n-gramas acumulativos y BERT (propuesto recientemente por Google), y cinco técnicas de aprendizaje de máquina, perceptrón multicapa, bosques aleatorios, k vecinos más cercanos, árboles de decisión y un clasificador bayesiano ingenuo. Los experimentos se realizaron con datos de dos organizaciones y los mejores resultados fueron los obtenidos por el perceptrón multicapa, los bosques aleatorios y los k vecinos más cercanos, con resultados muy similares de exactitud general y recuerdo por clase para los tres algoritmos. Los resultados no son concluyentes para ofertar el servicio a múltiples clientes con un solo modelo, ya que esto depende de los documentos y tipos documentales de cada uno de ellos. Por lo anterior, se ofrece un servicio basado en una arquitectura de microservicios que permite a cada organización la creación de su propio modelo, el monitoreo de su rendimiento en producción y su actualización cuando el rendimiento no sea adecuado.

Palavras-chave : analítica de datos; bosques aleatorios; CRISP-DM; k vecinos más cercanos; perceptrón multicapa; sistema de gestión documental; trigramas..

        · resumo em Português | Inglês     · texto em Espanhol     · Espanhol ( pdf )