SciELO - Scientific Electronic Library Online

 
 número43Apoyando el despliegue de procesos en el contexto de las pequeñas organizaciones softwareModelo de referencia ágil y escalado para la industria de software índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • En proceso de indezaciónCitado por Google
  • No hay articulos similaresSimilares en SciELO
  • En proceso de indezaciónSimilares en Google

Compartir


Revista científica

versión impresa ISSN 0124-2253versión On-line ISSN 2344-8350

Resumen

GARCIA-CHICANGANA, David-Santiago et al. Serviço de classificação documentária multi-cliente baseado em técnicas de aprendizagem de máquina e Elasticsearch. Rev. Cient. [online]. 2022, n.43, pp.64-79.  Epub 18-Feb-2022. ISSN 0124-2253.  https://doi.org/10.14483/23448350.18352.

Este artigo apresenta um serviço de classificação de documentos que permite que sistemas de gerenciamento de documentos de múltiplos clientes (multilocatário) forneçam maior confiança e credibilidade nos tipos de documentos atribuídos aos documentos carregados pelos usuários. A pesquisa foi realizada através das fases do CRISP-DM onde foram avaliados dois modelos de representação de documentos, sacos de palavras com n-gramas cumulativos e BERT (recentemente proposto pelo Google) e cinco técnicas de aprendizado de máquina, perceptron multicamadas, florestas aleatórias, k mais próximo vizinhos, árvores de decisão e bayes ingênuos. Os experimentos foram realizados com dados de duas organizações e os melhores resultados foram obtidos pelo perceptron multicamadas, as florestas aleatórias e os k vizinhos mais próximos, com resultados muito semelhantes de precisão geral e recuperação por classe para esses três algoritmos. Os resultados não são conclusivos para oferecer o serviço a vários clientes com um único modelo, pois isso depende também dos documentos e tipos de documentos de cada um deles. Portanto, um serviço é oferecido com base em uma arquitetura de microsserviços que permite a cada organização criar seu próprio modelo, monitorar seu desempenho na produção e atualizá-lo quando o desempenho não for adequado.

Palabras clave : análise de dados; CRISP-DM; florestas aleatórias; k-vizinhos mais próximos; perceptron multicamadas; sistema de gerenciamento de documentos; trigramas..

        · resumen en Español | Inglés     · texto en Español     · Español ( pdf )