SciELO - Scientific Electronic Library Online

 
 número43Apoiar a implantação de processos no contexto de pequenas organizações de softwareModelo de referência ágil e escalonado para a indústria de software índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Em processo de indexaçãoCitado por Google
  • Não possue artigos similaresSimilares em SciELO
  • Em processo de indexaçãoSimilares em Google

Compartilhar


Revista científica

versão impressa ISSN 0124-2253versão On-line ISSN 2344-8350

Resumo

GARCIA-CHICANGANA, David-Santiago et al. Serviço de classificação documentária multi-cliente baseado em técnicas de aprendizagem de máquina e Elasticsearch. Rev. Cient. [online]. 2022, n.43, pp.64-79.  Epub 18-Fev-2022. ISSN 0124-2253.  https://doi.org/10.14483/23448350.18352.

Este artigo apresenta um serviço de classificação de documentos que permite que sistemas de gerenciamento de documentos de múltiplos clientes (multilocatário) forneçam maior confiança e credibilidade nos tipos de documentos atribuídos aos documentos carregados pelos usuários. A pesquisa foi realizada através das fases do CRISP-DM onde foram avaliados dois modelos de representação de documentos, sacos de palavras com n-gramas cumulativos e BERT (recentemente proposto pelo Google) e cinco técnicas de aprendizado de máquina, perceptron multicamadas, florestas aleatórias, k mais próximo vizinhos, árvores de decisão e bayes ingênuos. Os experimentos foram realizados com dados de duas organizações e os melhores resultados foram obtidos pelo perceptron multicamadas, as florestas aleatórias e os k vizinhos mais próximos, com resultados muito semelhantes de precisão geral e recuperação por classe para esses três algoritmos. Os resultados não são conclusivos para oferecer o serviço a vários clientes com um único modelo, pois isso depende também dos documentos e tipos de documentos de cada um deles. Portanto, um serviço é oferecido com base em uma arquitetura de microsserviços que permite a cada organização criar seu próprio modelo, monitorar seu desempenho na produção e atualizá-lo quando o desempenho não for adequado.

Palavras-chave : análise de dados; CRISP-DM; florestas aleatórias; k-vizinhos mais próximos; perceptron multicamadas; sistema de gerenciamento de documentos; trigramas..

        · resumo em Espanhol | Inglês     · texto em Espanhol     · Espanhol ( pdf )