SciELO - Scientific Electronic Library Online

 
vol.54 issue1Psychometric properties of the needs scale for families of adults with intellectual disabilities, Colombian versionAutoimmune/inflammatory syndrome induced by adjuvants (ASIA), medical treatment of severe systemic compromise: case report author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Colombia Médica

On-line version ISSN 1657-9534

Abstract

MENDOZA-URBANO, Diana Marcela et al. Extracción automatizada de información en español de texto libre de informes de patología oncológica. Colomb. Med. [online]. 2023, vol.54, n.1, e2035300.  Epub Mar 30, 2023. ISSN 1657-9534.  https://doi.org/10.25100/cm.v54i1.5300.

Introducción:

Los reportes de patología están almacenados como texto libre sin estructura, gramática, fragmentados o abreviados, con variabilidad lingüística entre patólogos. Por esta razón, la extracción de información de tumores requiere un esfuerzo humano significativo. Almacenar información en un formato eficiente y de alta calidad es esencial para implementar y establecer un registro hospitalario de cáncer.

Objetivo:

Este estudio busca describir la implementación de un algoritmo de Procesamiento de Lenguaje Natural para reportes de patología oncológica.

Métodos:

Desarrollamos un algoritmo para procesar reportes de patología oncológica en Español, con el objetivo de extraer 20 descriptores médicos. El abordaje se basa en la coincidencia sucesiva de expresiones regulares.

Resultados:

La validación se hizo con 140 reportes de patología. La identificación topográfica se realizó por humanos y por el algoritmo en todos los reportes. La morfología fue identificada por humanos en 138 reportes y por el algoritmo en 137. El valor de coincidencias parciales (fuzzy matches) promedio fue de 68.3 para Topografía y 89.5 para Morfología.

Conclusiones:

Se hizo una validación preliminar del algoritmo contra extracción humana sobre un pequeño grupo de reportes, con resultados satisfactorios. Esto muestra que múltiples atributos del espécimen pueden ser extraídos de manera precisa de texto libre de reportes de patología en Español, usando un abordaje de expresiones regulares. Adicionalmente, desarrollamos una página web para facilitar la validación colaborativa a gran escala, lo que puede ser beneficioso para futuras investigaciones en el tema.

Keywords : Registro del programa nacional de cancer; inteligencia artificial; aprendizaje de ontologia; ciencia de los datos; reportes em patologia del cancer; expresiones regulares; algoritmo.

        · abstract in English     · text in English | Spanish     · English ( pdf ) | Spanish ( pdf )