Biomédica

Inteligencia artificial y salud digital en Colombia: panorama de los avances más recientes y retos futuros

Advanced artificial intelligence in piRNA and PIWI-like protein research: A systematic review of recurrent neural networks, long short-term memory, and emerging computational techniques

Abstract Introduction. PIWI-interacting RNAs are small and non-coding RNAs involved in gene regulation and transposable element repression, emerging as critical biomarkers and therapeutic targets in oncology. Advances in artificial intelligence, such as recurrent neural networks, long short-term memory networks, and graph convolutional networks, offer significant improvements in PIWI-interacting RNA detection. Objectives. To evaluate the performance of artificial intelligence models, including recurrent neural networks, long short-term memory, and graph convolutional networks, in detecting PIWI-interacting RNAs and assessing their implications for cancer diagnostics and prognosis. Materials and methods. A systematic review of 24 studies was conducted across PubMed, ScienceDirect, Scopus, and Web of Science, focusing on artificial intelligence-based approaches for PIWI-interacting RNA detection. Inclusion criteria were original articles published in English or Spanish using artificial intelligence models in clinical or experimental settings. Performance metrics such as accuracy, sensitivity, and specificity were analyzed. Results. Long short-term memory models achieved the highest overall accuracy (92.3%), followed by graph convolutional networks (91.4%), support vector machines (88%), and recurrent neural networks (85.7%). Sensitivity and specificity were also highest in long short-term memory (94% and 91%, respectively). Graph convolutional networks showed superior performance in identifying PIWI-interacting RNA-disease associations with complex datasets. Support vector machine models were effective in smaller datasets but exhibited scalability limitations. Conclusion. Artificial intelligence models, especially long short-term memory and graph convolutional networks, significantly enhance PIWI-interacting RNA detection, supporting their application in cancer diagnostics and personalized medicine. Future studies should refine these models, address dataset biases, and explore their integration into clinical workflows.

Resumen Introducción. Los ARN que interactúan con las proteínas PIWI (P-element-Induced Wimpy Testis), son pequeños ARN no codificantes involucrados en la regulación génica y la represión de los transposones o “genes saltarines”. Por esta razón, son de interés como biomarcadores prometedores y como blancos terapéuticos en oncología. Los avances en inteligencia artificial, como redes neuronales recurrentes, modelos de memoria a corto plazo prolongada, y redes convolucionales gráficas, ofrecen mejoras significativas en la detección del ARN asociado con las proteínas PIWI. Objetivo. Evaluar el desempeño de modelos de inteligencia artificial, como redes neuronales recurrentes, memoria a corto plazo prolongada y redes convolucionales gráficas, en la detección del ARN asociado con proteínas PIWI, y sus implicaciones en el diagnóstico y el pronóstico del cáncer. Materiales y métodos. Se revisaron 24 estudios obtenidos de PubMed, ScienceDirect, Scopus y Web of Science, enfocados en tratar sobre inteligencia artificial encaminada a detectar ARN asociado con proteínas PIWI. Se incluyeron artículos originales en inglés o español, en los que se usaron modelos de inteligencia artificial en contextos clínicos o experimentales. Se analizó su desempeño mediante medidas de precisión, sensibilidad y especificidad. [métricas: cf. https://dle.rae.es/m%C3%A9trico?m=form ] Resultados. Los modelos de memoria a corto plazo prolongada lograron la mayor precisión general (92,3 %), seguidos por las redes convolucionales gráficas (91,4 %), máquinas de vectores de soporte (88 %) y redes neuronales recurrentes (85,7%). La sensibilidad (94 %) y la especificidad (91 %) también fueron más altas en los de memoria a corto plazo prolongada. Los modelos de redes convolucionales gráficas mostraron un desempeño superior en la detección de asociaciones entre ARN que interactúa con proteínas PIWI y el desarrollo de enfermedad, mediante bases complejas de datos. Los modelos de máquinas de vectores de soporte fueron eficaces con bases de datos más pequeñas, aunque con limitaciones de escalabilidad. Conclusión. Los modelos de inteligencia artificial, especialmente los de memoria a corto plazo prolongada y las de redes convolucionales gráficas, mejoran significativamente la detección de ARN que interactúan con las proteínas PIWI, lo que respalda su utilización en el diagnóstico del cáncer y la medicina personalizada. Los estudios futuros deben refinar estos modelos, abordar sesgos asociados con los datos y explorar su integración en los flujos de trabajo clínicos.

Use of artificial intelligence in the diagnosis of alterations in cervical cytology: A university population-based observational study

Resumen Introducción. La citología convencional (prueba de Papanicolaou) continúa siendo un pilar del tamizaje del cáncer cervicouterino en Colombia, pero su utilidad se ve opacada por una gran carga laboral y bajo rendimiento diagnóstico. El uso de la inteligencia artificial puede proveer una solución a este problema, sin embargo, no hay estudios que evalúen su utilidad en nuestra población. Objetivo. Evaluar y comparar la capacidad discriminativa de cuatro modelos de inteligencia artificial para detectar anormalidades en la citología cervicouterina. Materiales y métodos. Se obtuvieron 650 imágenes de células de citología cervicouterina convencional de una población universitaria del nororiente colombiano, las cuales fueron sometidas a evaluación diagnóstica por un patólogo experto. Mediante el análisis de imágenes digitales y aprendizaje profundo, se entrenaron cuatro modelos de inteligencia artificial (DenseNet, InceptionV3, MobileNet y VGG19) con los datos de una base de citología de acceso público, determinando la capacidad discriminativa de los modelos con su respectiva sensibilidad, especificidad y área bajo la curva. Resultados. MobileNet tuvo la mejor capacidad discriminativa [área bajo la curva (AUC) de 0,97) con una especificidad del 0,99 y sensibilidad de 0,78 para la detección de alteraciones en la citología cervicouterina. Por otro lado, InceptionV3 tuvo un mejor desempeño en el tamizaje, con sensibilidad del 0,93, especificidad de 0,82 y área bajo la curva de 0,947. Conclusiones. Nuestros resultados ilustran las ventajas y desventajas de diferentes modelos de inteligencia artificial y la forma como podrían ayudar a mejorar el rendimiento del tamizaje con citología convencional o, incluso, servir como método de tamizaje primario para descartar los casos negativos, lográndose un desempeño diagnóstico comparable con el de la lectura convencional.

Abstract Introduction. Conventional cervical cytology (Pap smear) remains a primary method for cervical cancer screening in Colombia, despite limitations in diagnostic yield and heavy workload. The potential of artificial intelligence to address these challenges is yet to be evaluated in our population. Objective. To evaluate and compare the discriminative ability of four artificial intelligencebased models for the detection of abnormalities in Pap smears. Materials and methods. A total of 650 images of Pap smear cells were obtained from a university cohort in northeastern Colombia. These images were subjected to diagnostic evaluation by an expert pathologist. Four artificial intelligence models (DenseNet, InceptionV3, MobileNet, and VGG19) were trained using data from a publicly available Pap smear database with digital image analysis and deep learning. The discriminative ability of the models was determined by calculating their sensitivity, specificity, and area under the curve. Results. MobileNet showed the highest discriminative ability (AUC = 0.97), with a specificity of 0.99 and sensitivity of 0.78 for the detection of altered cells in Pap smears. On the other hand, InceptionV3 had the best performance capabilities for screening, with a sensitivity of 0.93, specificity of 0.82, and AUC of 0.947. Conclusions. The results of this study illustrate the advantages and disadvantages of different artificial intelligence models and how their application could help improve the diagnostic performance of manual reading in cervical cancer screening or even serve as a primary screening method to rule out negative cases, by achieving a diagnostic performance comparable to that of manual reading.

Artificial intelligence-driven clinical guideline recommendations in maternal care: How trustworthy are they?

Abstract Introduction. Medical staff often face difficulties in consulting and applying clinical guidelines in practice. Large language models, especially when combined with retrieval- augmented generation, may help overcome these challenges by producing context-specific outputs with improved adherence to medical guidelines. Objectives. To assess the performance of commercial large language models in answering maternal health questions within retrieval-augmented generation systems, using both human and automated evaluation metrics. Material and methods. A controlled experiment was designed to obtain accurate, consistent answers from a retrieval-augmented generation system based on Colombian maternal care guidelines. A physician formulated ten questions and defined the ground- truth answers. Various large language models were tested with a standardized prompt and evaluated through binary answer-concept ranking and retrieval-augmented generation assessment, metrics, judged by two independent large language models. Results. Generative pre-trained transformer 3.5 (GPT-3.5) achieved the highest physician- assessed accuracy (0.90). Claude 3.5 obtained the top faithfulness score (0.78) under GPT-4.0 evaluation, while Mistral ranked highest (0.84) under Claude 3.5 evaluation. Regarding answer relevance, GPT-3.5 scored highest across both judges (0.94 and 0.86). Conclusions. Integrating retrieval-augmented generation into obstetric care has the potential to enhance evidence-based practices and improve patient outcomes. However, rigorous validation of accuracy and context-specific reliability is essential before clinical deployment. The findings of this study indicate that large-scale models (e.g., GPT-3.5, Claude, Llama 70B) consistently outperform lighter models such as Llama 8B.

Resumen Introducción. El personal médico enfrenta limitaciones al consultar y utilizar guías clínicas en la práctica. Las recientes tecnologías de inteligencia artificial, como los modelos de lenguaje a gran escala -también llamados “pesados- (large language models, LLM), pueden ayudar a superar estas limitaciones. Cuando se usa la generación aumentada por recuperación (retrieval-augmented generation, RAG) a estos modelos, las respuestas generadas se vuelven más relevantes en contextos específicos y se ajustan mejor a las guías médicas. Objetivo. Evaluar el desempeño de los modelos comerciales de lenguaje a gran escala mediante sus respuestas, cuando se trata de preguntas relacionadas con la atención materna en sistemas de generación aumentada por recuperación, supervisados estos sistemas mediante mediciones humanas y automáticas. Material y métodos. Se diseñó un experimento controlado para obtener respuestas precisas y constantes de un sistema de generación aumentada por recuperación, utilizando las guías colombianas para la atención materna. Un médico formuló diez preguntas y determinó las respuestas de referencia. Se generó una instrucción (prompt) para la inteligencia artificial y se evaluaron varios modelos de lenguaje a gran escala, utilizando: 1) una clasificación binaria humana de conceptos en las respuestas, y 2) los valores de la evaluación de la generación aumentada por recuperación (retrieval-augmented generation assessment, RAGAS), juzgadas por otro modelo de lenguaje. Resultados. El modelo GPT-3.5 (generative pre-trained transformer 3.5) obtuvo la puntuación más alta en la evaluación médica, con una precisión de 0,9. Mediante la valoración por GPT-4, el modelo Claude 3.5 fue el mejor calificado, destacándose una fidelidad de 0,78. Por otra parte, mediante la evaluación por Claude 3.5, el modelo Mistral obtuvo la puntuación más alta, con una fidelidad de 0,84. En cuanto a la relevancia de las respuestas, el modelo GPT-3.5 obtuvo la puntuación más alta en ambas evaluaciones: 0,94 con GPT-4o y 0,86 con Claude 3.5. Conclusiones. La integración de la generación aumentada por recuperación en obstetricia puede mejorar las prácticas basadas en la evidencia, optimizando los resultados para los pacientes. Sin embargo, es crucial evaluar la precisión de las respuestas y la información específica del contexto antes de su uso clínico. Los resultados del presente estudio sugieren que los modelos pesados o a gran escala, como GPT-3.5, Claude o Llama 70B, superan siempre a los modelos más livianos o a menor escala, como Llama 8B.

Knowledge-based clinical decision support system for the automated classification of anemia in hemodialysis patients

Resumen Introducción. La anemia es una complicación frecuente de los pacientes con enfermedad renal crónica y en hemodiálisis, asociada con mayor morbimortalidad y uso de recursos. Su clasificación adecuada es esencial para optimizar el tratamiento con hierro intravenoso y agentes estimulantes de la eritropoyesis. Los sistemas de apoyo a las decisiones clínicas basados en el conocimiento permiten estandarizar esta clasificación. Objetivo. Describir el desarrollo y el funcionamiento de un sistema de apoyo a las decisiones clínicas -basado en el conocimiento- para la clasificación automatizada de la anemia de los pacientes en hemodiálisis, utilizando datos reales de laboratorio. Materiales y métodos. Se llevó a cabo un estudio observacional retrospectivo de 883 pacientes adultos en hemodiálisis prevalente durante el 2023. Se construyó un algoritmo con base en las guías clínicas de la Sociedad Latinoamericana de Nefrologia e Hipertensión (SLANH), Kidney Disease: Improving Global Outcomes (KDIGO), National Institute for Health and Care Excellence (NICE) para clasificar a los pacientes con hemoglobina menor de 12 g/dl en tres categorías: déficit absoluto de hierro, déficit funcional de hierro y candidatos a prueba terapéutica con hierro intravenoso. También, se identificaron los casos con sospecha de hiperparatiroidismo secundario grave [paratohormona (PTH) mayor de 800 pg/ml]. Se usaron los datos del sistema de laboratorio y del sistema de apoyo a las decisiones clínicas, y se analizaron con estadísticas descriptivas. Resultados. El sistema de apoyo a las decisiones clínicas clasificó a los pacientes en los siguientes grupos: déficit funcional de hierro (39,2 %), hiperparatiroidismo secundario grave (26,7 %), déficit absoluto de hierro (17,7 %) y candidatos a la prueba terapéutica (16,4 %). Un subgrupo (9,5 % con déficit funcional de hierro) presentó elevación de la PTH, lo cual sugiere resistencia a los agentes estimulantes de la eritropoyesis. Se observaron diferencias clínicas entre los grupos. Conclusiones. El sistema de apoyo a las decisiones clínicas permitió hacer una clasificación automatizada de la anemia en hemodiálisis, apoyando aquellas basadas en la evidencia. Su implementación representa un avance en la salud digital, con potencial para mejorar la calidad del manejo de la enfermedad renal crónica.

Abstract Introduction. Anemia is a frequent complication in patients with chronic kidney disease undergoing hemodialysis and is associated with increased morbidity, mortality, and healthcare burden. Accurate classification is essential to optimize treatment with intravenous iron and erythropoiesis-stimulating agents. Rule-based clinical decision support systems (CDSS) provide a strategy to standardize this process. Objective. To describe the development and implementation of a knowledge-based clinical decision support system for the automated classification of anemia in hemodialysis patients using laboratory data. Materials and methods. This retrospective observational study included 883 adult patients receiving prevalent hemodialysis during 2023. An algorithm was developed based on established clinical guidelines [Sociedad Latinoamericana de Nefrología e Hipertensión (SLANH)], KDIGO, NICE to classify patients with hemoglobin below 12 g/dl into three categories: absolute iron deficiency, functional iron deficiency, and candidates for therapeutic trial with intravenous iron. The system also flagged cases with suspected severe secondary hyperparathyroidism (PTH > 800 pg/ml). Data was obtained from the laboratory information system and the clinical decision support system. We applied a descriptive statistical analysis. Results. The clinical decision support system automatically classified patients into the following categories: functional iron deficiency (39.2%), severe hyperparathyroidism (26.7%), absolute iron deficiency (17.7%), and candidates for intravenous iron trial (16.4%). A subgroup (9.5% within the functional iron deficiency group) also showed elevated PTH levels, suggesting potential resistance to erythropoiesis-stimulating agents. Distinct clinical profiles were observed across the groups. Conclusions. The clinical decision support system enabled automated and standardized classification of anemia in hemodialysis patients, supporting evidence-based clinical decision-making. Its implementation represents a digital health innovation with the potential to improve the quality and safety of anemia management in chronic kidney disease.

Synthetic data within a common data model for artificial intelligence applications in maternal health: experience report in the Colombian context

Resumen Introducción. Los datos sintéticos en salud son una alternativa para generar registros clínicos que permitan obtener historias clínicas similares a las reales y que puedan ser usadas en diferentes situaciones clínicas. Objetivo. Formular un modelo basado en la generación de datos sintéticos para el proceso de atención de la gestación en Colombia y adaptarlo al modelo de datos común de la Observational Medical Outcomes Partnership (OMOP) para facilitar su integración en aplicaciones de inteligencia artificial en salud materna. Materiales y métodos. Se realizó un estudio de caso de formulación de datos completamente sintéticos, en el cual se incluyeron algunos de los desenlaces y condiciones más frecuentes de la gestación durante un proceso típico de atención de mujeres gestantes en Colombia. La propuesta se complementó con la generación de un modelo común de datos para facilitar la integración de los datos en futuras aplicaciones de inteligencia artificial o de sistemas complementarios que se beneficien de un lenguaje común, independiente del sistema o de la forma de clasificación. Resultados. Se logró la formulación de un modelo para la generación sintética de datos clínicos en el entorno clínico de atención de la gestación hasta el periodo perinatal. El modelo incluyó las condiciones clínicas y los desenlaces más frecuentes, los cuales se diagramaron en la herramienta Synthea™ con sus respectivas probabilidades clínicas de ocurrencia, según la literatura reportada o la práctica habitual de los especialistas en obstetricia en Colombia. Conclusiones. Este estudio demuestra que la generación de datos sintéticos aplicados al proceso de atención de la gestación en Colombia es factible y constituye un aporte pionero en la región.

Abstract Introduction. Synthetic data in healthcare is an alternative for generating clinical records that resemble those registered in real clinical scenarios. The benefits of synthetic data are: greater volume of data, the possibility of representing specific patient populations, protection of real-data privacy, and improved data-sharing among different actors. Objective. To formulate a synthetic data generation model for the gestational care process in Colombia and adapt it to the Observational Medical Outcomes Partnership (OMOP) common data model to facilitate its integration into artificial intelligence applications in maternal health. Materials and methods. We conducted a case study of fully synthetic data formulation that included some of the most frequent outcomes and conditions during gestation based on a typical care process for pregnant women in Colombia. This approach was complemented by the generation of a common data model to facilitate data integration in future artificial intelligence applications or complementary systems that benefit from a standardized language, regardless of the system or form of classification. Results. We formulated a model for the synthetic generation of clinical data -applicable to real clinical settings- that spans the entire gestational care until the perinatal period. The model included the most frequent clinical conditions and outcomes, which were diagrammed in the Synthea™ tool with their corresponding clinical probabilities of occurrence based on the reported literature or the usual practice of obstetric specialists in Colombia. Conclusions. This study demonstrates that the generation of synthetic data applied to the gestational care process in Colombia was feasible and represents a pioneering contribution in the region.

Classification of human epidermal growth factor receptor 2 expression in cancerous breast tissue through artificial intelligence

Resumen Introducción. El análisis histológico y molecular del tejido mamario es clave para el diagnóstico, el pronóstico y el tratamiento del cáncer de mama. Entre los biomarcadores evaluados, se destacan los receptores de progesterona, los de estrógeno y el receptor 2 del factor de crecimiento epidérmico humano (HER2). La sobreexpresión de HER2 indica un subtipo agresivo de cáncer de mama, aunque permite el uso de terapias dirigidas que mejoran la tasa de supervivencia. No obstante, su evaluación enfrenta desafíos, desde la calidad de las muestras hasta la variabilidad en la interpretación. El College of American Pathologists clasifica la sobreexpresión de HER2 en cuatro categorías, pero la variabilidad en la expresión cercana al 10 % puede generar confusión. Objetivo. Presentar una técnica basada en la inteligencia artificial para clasificar células con sobreexpresión de HER2 en las placas histológicas. Materiales y métodos. Se aplicó la metodología Cross-Industry Standard Process for Data Mining (CRISP-DM) en muestras de 89 pacientes de la Unidad de Diagnóstico en Patología, abarcando los cuatro niveles de HER2. Se utilizaron redes neuronales y modelos de Vision Transformer (ViT) afinados mediante transferencia de aprendizaje. Además, se evaluó la facilidad de uso y, finalmente, la eficiencia del software presentado. Resultados. Con el modelo ViT-B/16, se obtuvo una exactitud del 90,65 % en la clasificación, mientras que la herramienta evaluada generó un grado aceptable de satisfacción con su aplicación clínica. Conclusión. La inteligencia artificial demostró gran precisión y concordancia en la clasificación del HER2, redujo la variabilidad diagnóstica y mejoró la objetividad, aunque aún se requiere optimizar la eficiencia del procesamiento.

Abstract Introduction. Histological and molecular analysis of breast tissue is essential for the diagnosis, prognosis, and treatment of breast cancer. Key biomarkers include progesterone and estrogen receptors, as well as the human epidermal growth factor receptor 2 (HER2). HER2 overexpression indicates an aggressive subtype of breast cancer but enables targeted therapies that improve survival rates. However, its evaluation faces challenges, ranging from sample quality to interpretation variability. The College of American Pathologists classifies HER2 overexpression into four categories, but variations around the 10% expression threshold can lead to misinterpretations. Objective. To present an automated technique for classifying HER2-overexpressing cells in histological slides. Materials and methods. The Cross-Industry Standard Process for Data Mining (CRISP-DM) methodology was applied using samples of 89 patients from the Unidad de Diagnóstico en Patología, covering all four HER2 expression levels. Deep learning techniques were employed, leveraging neural networks and vision transformer models through transfer learning. Additionally, a usability evaluation was conducted on the final version of the software. Results. The ViT-B/16 model achieved a classification accuracy of 90,65%, while the tool was evaluated with an acceptable level of satisfaction in its clinical application. Conclusion. Artificial intelligence demonstrated high accuracy and consistency in HER2 classification, reducing diagnostic variability and improving objectivity. However, further optimization of processing efficiency is required for broader applicability.