Aseguramiento y control de la calidad de los datos en un estudio de cohorte en Colombia

Yepes Delgado, Carlos Enrique; Muñoz-González, Simón; Zuleta-Tobón, John Jairo; Yepes Delgado, Carlos Enrique; Muñoz-González, Simón; Zuleta-Tobón, John Jairo

doi:10.18273/saluduis.55.e:23072

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Revista de la Universidad Industrial de Santander. Salud

Print version ISSN 0121-0807On-line version ISSN 2145-8464

Rev. Univ. Ind. Santander. Salud vol.55 Bucaramanga Dec. 2023 Epub Nov 21, 2023

https://doi.org/10.18273/saluduis.55.e:23072

Artículo de investigación e innovación

Aseguramiento y control de la calidad de los datos en un estudio de cohorte en Colombia

Data quality assurance and control in a cohort study in Colombia

Carlos Enrique Yepes Delgado¹²
http://orcid.org/0000-0001-5656-4989

Simón Muñoz-González¹^*
http://orcid.org/0000-0002-8038-060X

John Jairo Zuleta-Tobón¹
http://orcid.org/0000-0001-5407-7714

^¹ Universidad de Antioquia. Medellín. Colombia.

^²Hospital Pablo Tobón Uribe. Medellín, Colombia.

Resumen

Introducción:

La calidad de los datos facilita garantizar la fiabilidad de los estudios observacionales.

Objetivo:

Describir el aseguramiento y el control de calidad para mantener la fiabilidad y la validez del dato en un estudio de cohorte.

Métodos:

Presentar el manejo de datos implementado dentro de un seguimiento de enfermos renales crónicos cuya exposición fue un programa de protección renal comparado con el tratamiento convencional y su asociación con desenlaces clínicos. Se evaluó el cambio en la frecuencia de errores después de implementar el plan y la reproducibilidad del ingreso de registros a las bases de datos.

Resultados:

Se documentó una disminución progresiva en los errores cometidos en la captación de datos. El valor de Kappa entre los recolectores de la información para las variables clínicas más importantes fue 0,960 para la depuración de creatinina < 60 mL/min; 0,942 para la alteración ecografía renal; 0,871 para la proteinuria > 150 mg/dL; 0,730 para la alteración del sedimento urinario; 0,956 para la asignación de estadio al ingreso. Los coeficientes de correlación intraclase para la identificación de las cifras de presión arterial sistólica fue 0,996; para la de presión arterial diastólica 0,993 y para los niveles de creatinina sérica al diagnóstico 0,995.

Discusión:

La calidad de los datos comienza con el reconocimiento de los retos y dificultades que implica su responsable captación, de ahí el aporte de la estandarización de los procesos y el personal que los lleve a cabo en forma idónea. Estudios evidencian que muchos procesos de mejora surgen en el desarrollo de la investigación sin protocolos preestablecidos.

Conclusión:

La reducción en la proporción y el tipo de error durante el proceso de captación de datos se debe a su identificación temprana y la corrección de instructivos, del instrumento de control de diligenciamiento y de la capacitación continua del personal. El análisis mostró una buena concordancia interevaluador.

Palabras clave: Estudios de cohortes; Aseguramiento de calidad; Control de calidad; Recolección de datos; Exactitud de los datos; Sesgo; Mejoramiento de la calidad; Curaduría de datos

Abstract

Introduction:

Data quality makes it easier to ensure that observational studies are reliable.

Objective:

To describe assurance and quality control to maintain data reliability and validity in a cohort study.

Methodology:

We present the data management strategies implemented in a study that followed patients of chronic kidney disease who were in a renal protection program and compared them with those undergoing conventional treatment to observe its association with clinical outcomes. We assessed the changes in error frequency after implementing the plan along with the reproducibility of the strategies for entering records into the databases.

Results:

We documented a progressive decrease of data collection errors. The Kappa values among data collectors for the most important variables were: 0.960 for creatinine clearance <60 ml/min; 0.942 for renal ultrasound alteration; 0.871 for proteinuria >150 mg/dl; 0.730 for urinary sediment alteration and 0.956 for stage allocation upon admission. The intraclass correlation coefficient for the identification of systolic blood pressure was 0.996; for diastolic blood pressure, the coefficient was 0.993 and for serum creatinine levels at diagnosis, the value was 0.995.

Discussion:

Data quality begins with the recognition of the challenges and difficulties involved in responsible data collection, hence the contribution of standardized processes and personnel to carry them out in a suitable manner. Studies show that many improvement processes arise in the development of research without pre-established protocols.

Conclusion:

The reduction in error ratio and type during the data collection process are the result of the early identification of erroneously entered or missing data, the correction of the guidelines for completing forms as well as of the instruments for detecting errors and continuous training of the staff. The analysis showed good inter-rater reliability.

Keywords: Cohort studies; Quality assurance; Quality control; Data collection; Data accuracy; Bias; Quality improvement; Data curation

Introducción

Los estudios observacionales de alta calidad tienen un papel importante en la literatura científica al ser generadores de hipótesis, aportar evidencia preliminar para futuros ensayos, proporcionar estimaciones del efecto del tratamiento consistentes con las de ensayos controlados aleatorios y son un componente crítico de la investigación de efectividad comparativa¹. Hacen parte crucial del equipamiento de la investigación biomédica, especialmente al estudiar condiciones complejas o problemas relacionados con la comprensión de los resultados de intervenciones en poblaciones heterogéneas².

En este sentido, los estudios de cohorte constituyen un método privilegiado para obtener información clínica y epidemiológica que impacta la salud humana, al establecer una clara secuencia temporal entre exposición y desenlace con el respectivo aporte en inferencia causal en estudios etiológicos. Permiten evaluar exposiciones poco frecuentes, estudiar dosis respuesta, evalúan múltiples desenlaces que puedan estar relacionados con la exposición, incluso exposiciones probablemente nocivas³, sin dejar de mencionar su importancia por reflejar condiciones de la vida real.

Existen directrices publicadas y ampliamente aceptadas por la comunidad científica sobre la forma de reportar los estudios observacionales, pero ellas, más que hacer énfasis en la calidad del dato pues se da por sentada, solicitan explicitar los esfuerzos para controlar las potenciales fuentes de sesgos⁴. El grado de fiabilidad de los estudios observacionales varía mucho, en particular según el diseño del registro, los métodos utilizados para el análisis y, sobre todo, la calidad de los datos registrados⁵. La preocupación por esta calidad se amplía en el caso de los estudios que utilizan datos observacionales recogidos de forma rutinaria⁶, por lo tanto, se deben hacer esfuerzos para prevenir, detectar y corregir a tiempo los errores que se puedan presentar durante ese proceso.

Esta preocupación no solo es teórica. Un estudio encontró que la prevalencia de eventos definitorios de VIH, después de realizar auditoría a los datos, era 17,5 %, diferente al 12,9 % que arrojaban los datos originales, es decir, un incremento erróneo en 36 % de esa prevalencia e identificó subvaloraciones en la magnitud del riesgo de los factores estudiados, lo cual afectaba negativamente las inferencias⁶. Otro estudio en VIH encontró errores en 10 % de los registros de esquemas terapéuticos⁷. La toma de decisiones con base en esta información errada por la mala calidad de la obtención del dato puede tener consecuencias negativas sobre las personas y comunidades afectadas.

El aseguramiento y el control de la calidad de los datos (ACCD) son estrategias que aumentan la confianza en los resultados de un estudio, complementarios con los esfuerzos previos desde la formulación del protocolo de investigación encaminados al control de los propios sesgos⁸. El aseguramiento está orientado a garantizar la calidad antes de la recolección y el control una vez obtenidos los datos. Gran parte de la literatura sobre la ACCD ha surgido en el contexto de los ensayos clínicos, centrándose en la maximización de la calidad de los datos mediante protocolos estandarizados para todo el estudio y protocolos locales específicos, la formación del personal del estudio y los sistemas de gestión de datos, pero esta literatura no suele ser relevante para los estudios de cohortes⁹.

La mayoría de los estudios publicados no enseñan de manera detallada el manejo que se le hace a los datos¹⁰^-¹²y a pesar de la bibliografía médica y bioestadística sobre los fundamentos teóricos que rigen el ACCD¹³^-¹⁹, poco se ha mostrado sobre la aplicación de herramientas para garantizar su calidad en estudios reales²⁰^-²³. El objetivo de este artículo es presentar la experiencia en el manejo de datos implementada con el fin de para mantener la fiabilidad y la validez en un estudio con seguimiento, durante varios años, a una de las cohortes de pacientes con Enfermedad Renal Crónica (ERC) más grande de Latinoamérica.

Metodología

Estudio original

La investigación tuvo un diseño analítico de cohorte, con un seguimiento durante 49 meses a dos cohortes dinámicas de pacientes mayores de 16 años diagnosticados con ERC pertenecientes a dos Entidades Promotoras de Salud (EPS) colombianas, 4202 del grupo de expuestos al Programa de Protección Renal (PPR) y 1461 como grupo de control con Terapia Convencional (TC)²⁴. Como fecha de inicio de ambos grupos se consideró la correspondiente al diagnóstico de ERC según guías KDOQI, además de la fecha del ingreso al programa en el grupo expuesto al PPR. Se recogió información retrospectiva de historias clínicas sistematizadas de 36 meses y en forma prospectiva de 13 meses más, para evaluar progreso de estadio, requerimiento de diálisis y muerte.

El PPR es un plan de prevención secundario con estrategias como citas educativas y asistenciales periódicas, exámenes clínicos y de laboratorio, y la búsqueda activa de pacientes en riesgo que se organizan en dos niveles de atención. El primer nivel hace seguimiento a pacientes en estadios tempranos de ERC con medicina general y enfermería, además de dos citas por año con medicina interna y nutrición. El segundo nivel atiende pacientes del estadio tres en adelante con citas con medicina interna, nefrología y nutrición de forma bimestral o seis veces al año.

La TC se aplica en el primer nivel de atención a las personas con riesgo y a los pacientes con enfermedad y no se hace búsqueda activa de ellos. La remisión a especialista se realiza según el criterio del médico tratante y no se ejecutan protocolos o esquemas definidos de atención especial.

Estudiantes de los dos últimos años de medicina con conocimiento sobre ERC y capacitados en el diligenciamiento de los formularios y el manejo de los sistemas de información de las EPS, coordinados por el investigador principal, revisaron las historias clínicas.

Decisiones y comunicación entre el equipo

Se establecieron canales de comunicación eficaces entre los niveles de decisión del proyecto. El primer nivel estuvo conformado por el investigador principal, un nefrólogo y un estadístico. Un segundo nivel, conformado por una gerente en sistemas de información, una médica coordinadora técnica del trabajo en terreno y una administradora interna del proyecto, quienes semanalmente programaron y evaluaron el proceso haciendo los ajustes requeridos, por último, un tercer nivel conformado por el personal que realizó la recolección de los datos, con quienes se mantuvo permanente comunicación mediante la coordinación del trabajo de campo. Se generaron y divulgaron informes internamente con el fin de mejorar tanto el proceso mismo como las herramientas y la tecnología que lo soportaban. Se hicieron reuniones periódicas para realimentar los procesos de captura y para actualizar los instructivos.

Captura de los datos

Cada una de las historias clínicas de los participantes fue revisada al menos en dos ocasiones durante el seguimiento aportando al mejoramiento en la calidad y los datos se consignaron en un formulario en físico con cuatro componentes: características generales del paciente, características clínicas, control de comorbilidades, y seguimiento de desenlaces (Anexo 1). Posteriormente los datos se transcribieron a un formulario electrónico desarrollado en Visual Fox Pro-8.0 con un diseño lo más coincidente posible con el instrumento físico. Con esta estrategia se buscó contribuir a la agilidad de la digitación y a disminuir el riesgo de error en la transcripción.

Al instrumento físico y las variables contenidas se le realizaron inicialmente pruebas de contenido por los investigadores con expertos en nefrología y estadística para lograr que su contenido fuera suficiente, pertinente, exhaustivo y breve. Se definieron las variables para que los datos fueran recolectados en su expresión básica, y en los casos en que no se encontró el dato de la depuración de creatinina, los recolectores del dato la calcularon con las fórmulas estandarizadas de Cockcroft-Gault y MDRD respectivas, cuyo resultado fue verificado por otra persona.

Debido a que en las historias clínicas se encuentran datos faltantes, se realizó una búsqueda exhaustiva en diferentes secciones de las historias para que la base de datos creada se afectara lo menos posible, aun así la mayoría de las variables de interés presentaron una proporción de datos faltantes entre el 7 y el 11 %, ante lo cual se decidió no hacer imputación, la cual es una de las alternativas en el manejo de los datos perdidos. En relación con los datos atípicos e inverosímiles registrados, una persona diferente a quien captó el dato inicial, verificó la fidelidad de la fuente en la historia clínica y se corrigió. Se codificaron los posibles valores permitidos para cada variable y se incluyeron las opciones de "otros" y "sin dato", para aquellos casos en que se consideró necesario tal diferenciación.

Estandarización

Para estandarizar la captura de los datos se implementaron unos pasos claramente definidos. Se seleccionaron estudiantes de medicina del último año con conocimiento de ERC, se les capacitó para diligenciar los formularios y en el manejo de los sistemas de información de las EPS. Se elaboraron manuales instructivos aclarando cada campo del formulario para facilitar la recolección y captura del dato, los cuales estuvieron siempre disponibles para los responsables, además del refuerzo realizado en las reuniones periódicas con ellos.

La coordinación capacitó a los recolectores su ingreso a la investigación en el contenido de las guías KDOQI, en los protocolos para diligenciar los instrumentos (HCS1 y HCS2: historia clínica sistematizada para la primera y la segunda captación) y estandarizó y verificó en terreno la adecuada captación de los datos de las historias clínicas. Se estableció un proceso de asignación y recepción de formularios de tal manera que cada estudiante era responsable por un número de historias clínicas a revisar y al momento de recepción del formulario diligenciado se verificó que se hubiera realizado de manera correcta, mediante la aplicación de un instrumento de control de calidad. De esta manera se garantizó que las correcciones necesarias se hicieron de manera oportuna en terreno.

Se hicieron varias pruebas piloto para probar y ajustar los instrumentos, y para garantizar el adecuado adiestramiento de los captadores de datos. Estas pruebas se demoraron más tiempo del planeado inicialmente debido a los múltiples ajustes realizados.

Almacenamiento de los datos

Al confirmar que un paciente cumplía con los criterios de la investigación y que el instrumento estaba diligenciado correctamente, se le asignaba el número de archivo y se pasaba a digitación. Si el paciente cumplía con los criterios, pero se detectaban errores en el diligenciamiento del formulario, se devolvía al responsable para hacer las correcciones del caso. Los formularios repetidos y los que no cumplían con los criterios de inclusión se archivaron en forma separada, de acuerdo con la EPS y en orden cronológico.

Todos los formularios fueron ingresados en dos bases de datos por dos digitadores diferentes, para luego ser confrontadas identificando discrepancias que fueron resueltas tras verificar por un tercero el registro correcto en Excel. La información se almacenó en medios físico y magnético, identificando cada formulario recibido con un número que lo ubicaba en una posición específica en el archivo coincidente con el digitado en la base de datos, con el fin de poder ubicarlos posteriormente cuando fuese necesario.

Para el almacenamiento magnético se diseñó una base de datos relacional en SQL Server con las variables de los cinco componentes del instrumento físico y con la adición de variables calculadas de manera automática a partir de datos primarios recolectados, por ejemplo, la edad a partir de la fecha de nacimiento, los criterios KDOQI a partir de las especificaciones de la National Kidney Foundation o diferentes tiempos a partir de las fechas pertinentes consignadas.

Se realizaron copias de seguridad de la base de datos tanto de forma electrónica como automática con actualización diaria por cada digitadora, lo que aseguró la integridad de la base y la consistencia de los datos en caso de una falla en el sistema.

Control de sesgos

Desde el diseño del estudio se identificaron unos posibles sesgos, que suelen ser comunes a este tipo de estudios, y se establecieron estrategias para su control. Un sesgo pudo darse al conformar la cohorte cuando las personas que ingresaron al estudio hubiesen diferido en factores relacionados con la probabilidad de ocurrencia de los eventos a medir, como con los diferentes estadios de ERC al ingreso, lo que llevó a su control al ajustar (por estratos) en el análisis por estadio al ingreso. Para el control de sesgos de selección se tuvo en cuenta que los sujetos de la investigación se ajustaran a los criterios de inclusión y exclusión, además se captó la información de la totalidad de los pacientes del PPR y del TC.

Para evitar los sesgos de medición, se realizó prueba piloto de los instrumentos con los que se captaron los datos, y se evitaron los sesgos del observador, al capacitar a quienes recogieron los datos y se hizo estandarización del proceso de aplicación de los instrumentos.

Otro sesgo potencial de información provino de la posible falta de estandarización en los valores de referencia para los resultados de laboratorio. Para cada resultado, se tuvo en cuenta el valor de referencia reportado por el laboratorio que procesó la muestra, y se relacionó con el estándar internacional aceptado y reportado en la literatura científica

Verificación del aseguramiento y control de la calidad del dato

Todos los errores identificados en los primeros 50 instrumentos diligenciados se codificaron y cuantificaron, y se comparó esa frecuencia de ocurrencia con los siguientes 50 formularios, a la vez que se seguía implementando el plan de ACCD. Se siguió cuantificando y comparando la frecuencia de los errores en bloques de 50 formularios hasta llegar al número 700. Desde el formulario 701 hasta el 3000, se hizo control de calidad a las variables que tuvieron mayor frecuencia e importancia clínica en los primeros 700 formularios. Una vez fueron identificados estos errores, se corrigieron en la base de datos previa verificación en la fuente primaria y se reforzó la instrucción al personal recolector.

Entre el formulario número 3000 y el 9887, número total de historias clínicas revisadas, se continuó con la revisión de una muestra aleatoria de 150 formularios. Esta evaluación la realizó una persona diferente a quien hubiese captado los datos iniciales, seleccionada al azar del grupo recolector, con lo cual, adicional a la evaluación de la calidad del dato, se valoró la concordancia inter-evaluador.

La selección de las variables para valorar la concordancia fue por consenso del equipo investigador, privilegiando las que se consideraron más importantes (criterios diagnósticos de ERC y estadio al ingreso), y las que los recolectores consideraron menos relevantes (antecedentes patológicos, presión arterial sistólica y segunda medición de presión diastólica después del diagnóstico, y creatinina sérica al momento del diagnóstico). Para cuantificar esta concordancia, se aplicó el índice de Kappa a las variables cualitativas y el coeficiente de correlación intraclase (CCI) para las cuantitativas²⁵. En cuanto a los aspectos éticos, la investigación original contó con aprobación del Comité de Bioética de la Facultad de Medicina de la Universidad de Antioquia y de las EPS. Este uso secundario de datos no requiere evaluación por Comité de Ética, dado que toma datos administrativos y consolidados previamente en la investigación original, no se toma información de personas ni se tuvo nuevo contacto con ellos o con sus registros.

Resultados

La proporción de errores encontrados en los primeros 700 formularios verificados se relacionaron por tipo de error, así: identificación del paciente 13 %, diagnóstico ERC 13 %, ingreso al PPR y estadios 13 %, PPR previo 2 %, criterios KDOQI 40 %, registro de cambio de estadio 21 % y otros 8 %. Cinco de los 50 (10 %) primeros formularios y diez (20 %) de los siguientes 50 no presentaron ningún error. La Tabla 1 muestra el número de errores dentro de cada formulario, para cada uno de los tipos de errores más frecuentes e importantes, en general pasó a ser menor en el segundo grupo.

Tabla 1 Reporte del tipo de errores de los formularios 1 al 100.

Tipo de errores más frecuentes		Consecutivo de Formularios
Tipo de errores más frecuentes		0-50	51-100
Error cometido	Código error	Número de formularios con el error	Número de formularios con el error
Elegir "Sin Dato" en sedimento urinario cuando es "No"	073	19	7
Fecha de criterio de Depuración de Creatinina equivocada	040	15	3
Falta de registro de citas a nutrición PPR	080	13	7
No hay resultado de ecografía renal, con respuestas "Si" y "No" en el criterio	078	12	4
Fecha de criterio de proteinuria 24 horas equivocada	042	8	2
Falta de registros de "último dato"	095	8	0
Fecha de diagnóstico KDOQI errada, secundario a fecha de depuración de creatinina equivocada	008	4	7
Más retrocesos de los que realmente son	088	4	5

KDOQI, Kidney Disease Outcomes Quality Initiative.

Fuente: El estudio.

Los índices de Kappa obtenidos para las variables de mayor importancia, como son los criterios diagnósticos de ERC, depuración de creatinina, alteración de la ecografía renal, la proteinuria, y el estadio al ingreso fueron mayores a 0,8 y fue de 0,73 para la alteración del sedimento urinario. Los CCI para la presión arterial sistólica y segunda medición de presión diastólica después del diagnóstico y la creatinina sérica al momento del diagnóstico igualmente indican buena correlación. La Tabla 2 muestra que todos estos valores fueron significativamente distintos de los esperados por el azar.

Tabla 2 Análisis de concordancia inter-evaluador de variables clínicas seleccionadas

Variable	Valor del coeficiente de reproducibilidad	Error	Valor p
Antecedente de Hipertensión arterial	0,852¹	0,072	<0,001
Antecedente de Diabetes	0,504¹	0,052	<0,001
Antecedente de Dislipidemia	0,539¹	0,065	<0,001
Antecedente de Infarto Agudo de Miocardio	0,413¹	0,149	<0,001
Antecedente de Enfermedad coronaria	0,600¹	0,101	<0,001
Antecedente de Enfermedad cerebro-vascular	0,403¹	0,169	<0,001
Estadio al ingreso PPR registrado	0,956¹	0,044	<0,001
Depuración de creatinina < 60 mL/min	0,960¹	0,028	<0,001
Alteración ecografía renal	0,942¹	0,029	<0,001
Proteinuria > 150mg/dL	0,871¹	0,042	<0,001
Alteración sedimento urinario	0,730¹	0,104	<0,001
Presión arterial sistólica	0,996²	0,994-0,9953	<0,001
Presión arterial diastólica	0,993²	0,959-0,9963	<0,001
Creatinina	0,995²	0,993-0,9973	<0,001

¹ Kappa. ² Coeficiente de correlación intraclase. ³ Intervalo de confianza del 95 %. PPR, programa de protección renal.

Discusión

Este trabajo evidenció que hubo mejoría en la captación de los datos de la investigación luego de que los recolectores asistieran a las reuniones de retroalimentación y los formularios e instructivos fueran ajustados según las evaluaciones realizadas, evidenciando una reducción en el número de errores y en el tipo de error más frecuentemente cometido. Hacer uso de personal del área de la salud para el proceso de captura como fue en este caso, corroboró los beneficios que han demostrado estudios previos, al valorar la concordancia inter-evaluador de los datos extraídos por especialistas vs. personal no médico entrenado²⁰.

Lo anterior se hizo evidente en los resultados del valor de Kappa y del CCI con excelentes niveles de concordancia en la mayoría de las variables, donde las cifras que aportaban información relacionada directamente con los desenlaces tuvieron índices de reproducibilidad cercanos a 0,9. Los coeficientes menores se podrían atribuir a que corresponden a variables de menor importancia para el estudio y que por tanto llevan menos cuidado por parte de los recolectores a la hora de procesarlas, dado su conocimiento del tema. Estudios previos muestran que las variables de menor importancia suelen tener índices de reproducibilidad bajos, comparado con variables consideradas como importantes²⁶.

La doble entrada de datos a la base electrónica también contribuyó al control de sesgos y a aumentar la calidad del dato. Esta estrategia es implementada en gran cantidad de estudios actualmente y su utilidad ha sido probada. En estudios basados en registros médicos, los investigadores obtienen los datos de documentos que no han sido creados para responder con los objetivos del estudio. Esto implica mayor dificultad a la hora de obtenerlos e implica la necesidad de aplicar metodologías precisas para garantizar su calidad.

Se rescata la importancia de ciertos elementos metodológicos para tener en cuenta a la hora de hacer estudios retrospectivos basados en registros médicos, entre los que se encuentra el desarrollo de criterios explícitos de inclusión y exclusión, la adecuada operacionalización de las variables incluidas en la revisión retrospectiva, el entrenamiento y la supervisión de los extractores de datos, el desarrollo y la utilización de formularios de abstracción de datos estandarizados, la creación de un manual de procedimientos para explicar la abstracción de datos, la evaluación de la fiabilidad interobservador e intraobservador y la realización de una prueba piloto, estrategias implementadas en este estudio¹⁶.

En reconocidas publicaciones se evaluó la metodología aplicada a estudios retrospectivos en medicina de urgencias y en psiquiatría, y encontraron importante hacer énfasis en la construcción meticulosa de los formularios de recolección y de los instructivos para su diligenciamiento, así como la identificación de errores en estos a medida que el estudio es conducido²¹^,²⁷. Además, son fundamentales el entrenamiento del personal de recolección y el proceso de retroalimentación. Como en el presente trabajo, otros estudios trataron de garantizar que cada recolector estuviera permanentemente entrenado, mediante la asignación constante de historias clínicas a revisar para mantener las habilidades y los criterios de recolección en el mejor nivel.

Así mismo, se reconoce en la literatura especializada, que esforzarse por mejorar la calidad de los datos es una expresión de respeto hacia los participantes por su contribución con la información. En ese sentido, la calidad de los datos comienza con el reconocimiento de los retos y dificultades que implica su responsable captación, de ahí el aporte de la estandarización de los procesos y el personal que los lleve a cabo en forma idónea. Estudios evidencian que muchos procesos de mejora surgen en el desarrollo de la investigación sin protocolos preestablecidos, y requieren importantes inversiones económicas²⁸.

A la par con la necesidad de publicar artículos científicos rigurosos, se hace necesario explicitar métodos que garanticen en forma real, la calidad de los datos recopilados y analizados para soportar las conclusiones de las investigaciones realizadas. Dar cuenta en forma detallada de estrategias para mantener el ACCD no es frecuente en los artículos, pues suele resumirse sin mayor detalle en la sección de los métodos²⁹.

Si bien el ACCD son conceptos separados y que pertenecen a dos momentos diferentes en la ejecución del estudio, en la práctica suelen ser elementos codependientes y de permanente aparición, hasta tal punto que hay estrategias que pueden ser consideradas dentro de ambos conceptos. Existen publicaciones que proporcionan una serie de elementos sucesivos de aplicación sistemática para garantizar cierto nivel en la calidad del dato¹⁶^,²¹. En el caso de los estudios prospectivos, la depuración posterior puede mejorar la utilidad de los datos, pero la corrección retrospectiva de los problemas que surgen durante el periodo de recopilación es, en el mejor de los casos, una tarea que requiere mucho tiempo y puede ser imposible. Por lo tanto, los esfuerzos de calidad de los datos deben comenzar en la fase de diseño del estudio³⁰.

Como debilidad de este trabajo, se reconoce que no hubo un protocolo previo para medir el efecto del control de la calidad del dato en el estudio de cohorte referenciado²⁴, diferente a los instrumentos mencionados. Otra debilidad es la baja posibilidad de comparar estos resultados con otros estudios, debido no sólo a la baja frecuencia de publicaciones de este tipo, sino por la especificidad de cada aplicación realizada. Dado que se diseñó y utilizó un instrumento de recolección de datos, sin pretensiones de validación como escala, no se realizó análisis de consistencia interna de los datos con índices como el Alpha de Cronbach. Se rescata como positivo el ofrecer este tipo de reporte como insumo de aprendizaje, a quienes emprendan un gran estudio de cohorte como el realizado.

Se concluye que la estrategia usada en este estudio de cohorte con pacientes con ERC aportó en la calidad de los datos desde la captación, en la medida que se redujeron la proporción y los tipos de errores más frecuentes, gracias a su identificación y corrección temprana, además del subsecuente ajuste a los instructivos y a la capacitación continua del personal. El análisis mostró una buena concordancia inter-evaluador.

La calidad de los datos recogidos durante un estudio longitudinal repercute en la fiabilidad y validez de las mediciones. Mantener la integridad de los datos a lo largo del tiempo plantea retos, especialmente con los cambios de personal, los errores de transcripción y los acontecimientos históricos.

Referencias

1. Patanwala A. A practical guide to conducting and writing medical record review studies. Am J Health Syst Pharm. 2017; 74(22): 1853-1864. doi: https://doi.org/10.2146/ajhp170183 [ Links ]

2. Ligthelm R, Borzi V, Gumprecht J, Kawamori R, Wenying Y, Valensi P. Importance of observational studies in clinical practice. Clin Ther. 2007; 29(6): 1284-1292. doi: https://doi.org/10.1016/j.clinthera.2007.07.004 [ Links ]

3. Lazcano-Ponce E, Fernández E, Salazar-Martínez E, Hernández-Avila M. Estudios de cohorte. Metodología, sesgos y aplicación. Salud Publica Mex. 2000; 42(3): 230-241. [ Links ]

4. Von Elm E, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP. The strengthening the reporting of observational studies in Epidemiology (strobe) statement: Guidelines for Reporting Observational Studies. Int J Surg. 2014; 12(12): 1495-1499. doi: https://doi.org/10.1016/j.ijsu.2014.07.013 [ Links ]

5. Dreyer N, Velentgas P, Westrich K, Dubois R. The GRACE checklist for rating the quality of observational studies of comparative effectiveness: A tale of hope and caution. J Manag Care Spec Pharm. 2014; 20(3): 301-308. doi: https://doi.org/10.18553/jmcp.2014.20.3.301 [ Links ]

6. Giganti M, Shepherd B, Caro-Vega Y, Luz P, Rebeiro P, Maia M, et al. The impact of data quality and source data verification on epidemiologic inference: a practical application using HIV observational data. BMC Public Health. 2019; 19(1). doi: https://doi.org/10.1186/s12889-019-8105-2 [ Links ]

7. Duda S, Shepherd B, Gadd C, Masys D, McGowan C. Measuring the quality of observational study data in an international HIV research network. PLoS One. 2012; 7(4): e33908. doi: https://doi.org/10.1371/journal.pone.0033908 [ Links ]

8. Hammer GP, Prel J-Bdu, Blettner M. Avoiding bias in observational studies. Deutsches Ärzteblatt International. 2009. doi: https://doi.org/10.3238/arztebl.2009.0664 [ Links ]

9. Whitney C, Lind B, Wahl P. Quality assurance and quality control in longitudinal studies. Epidemiol Rev. 1998; 20(1): 71-80. doi: https://doi.org/10.1093/oxfordjournals.epirev.a017973 [ Links ]

10. Assareh H, Waterhouse M, Moser C, Brighouse R, Foster K, Smith I et al. Data quality improvement in clinical databases using statistical quality control: Review and case study. Ther Innov Regul Sci. 2013; 47(1): 70-81. doi: https://doi.org/10.1177/2168479012469957 [ Links ]

11. Kuwatsuka Y. Quality control and assurance in hematopoietic stem cell transplantation data registries in Japan and other countries. Int J Hematol. 2015; 103(1): 20-24. doi: https://doi.org/10.1007/s12185-015-1896-8 [ Links ]

12. Kenny A, Gordon N, Griffiths T, Kraemer J, Siedner M. Validation relaxation: A quality assurance strategy for electronic data collection. J Med Internet Res. 2017; 19(8): e297. doi: https://doi.org/10.2196/jmir.7813 [ Links ]

13. Lowenstein S. Medical record reviews in emergency medicine: The blessing and the curse. Appl Nurs Res. 2005; 45(4): 452-455. doi: https://doi.org/10.1016/j.annemergmed.2005.01.032 [ Links ]

14. Liddy C, Wiens M, Hogg W. Methods to achieve high interrater reliability in data collection from primary care medical records. Ann Fam Med. 2011; 9(1): 57-62. doi: https://doi.org/10.1370/afm.1195 [ Links ]

15. Gregory K, Radovinsky L. Research strategies that result in optimal data collection from the patient medical record. Appl Nurs Res. 2012; 25(2): 108116. doi: https://doi.org/10.1016/j.apnr.2010.02.004 [ Links ]

16. Vassar M, Matthew H. The retrospective chart review: important methodological considerations. J Educ Eval Health Prof. 2013; 10: 12. doi: http://dx.doi.org/10.3352/jeehp.2013.10.12 [ Links ]

17. Bowling A. Mode of questionnaire administration can have serious effects on data quality. J Public Health (Oxf). 2005; 27(3): 281-291. doi: https://doi.org/10.1093/pubmed/fdi031 [ Links ]

18. Gassman J, Owen W, Kuntz T, Martin J, Amoroso W. Data quality assurance, monitoring, and reporting. Control Clin Trials. 1995; 16(2): 104-136. doi: https://doi.org/10.1016/0197-2456(94)00095-K [ Links ]

19. Kodra Y, Posada de la Paz M, Coi A, Santoro M, Bianchi F, Ahmed F et al. Data quality in rare diseases registries. Adv Exp Med Biol. 2017; 149-164. doi: https://doi.org/10.1007/978-3-319-67144-4_8 [ Links ]

20. Mi M, Collins J, Lerner V, Losina E, Katz J. Reliability of medical record abstraction by non-physicians for orthopedic research. BMC Musculoskelet Disord. 2013; 14(1). doi: https://doi.org/10.1186/1471-2474-14-181 [ Links ]

21. Gearing R, Mian I, Barber J, Ickowicz A. A methodology for conducting retrospective chart review research in child and adolescent psychiatry. J Can Acad Child Adolesc Psychiatry. 2006; 15(3): 126-134. [ Links ]

22. Wawrzyniak Z, Paczesny D, Zatónski W. Application of advanced data collection and quality assurance methods in open prospective study - a case study of PONS project. Ann Agric Environ Med. 2019; 18(2): 207-214. [ Links ]

23. Westervelt H, Bernier R, Faust M, Gover M, Bockholt H, Zschiegner R et al. Data quality assurance and control in cognitive research: Lessons learned from the PREDICT-HD study. Int J Methods Psychiatr Res. 2017; 26(3): el534. doi: https://doi.org/10.1002/mpr.1534 [ Links ]

24. Villegas Sierra L, Buriticá Agudelo M, Yepes Delgado C, Montoya Jaramillo Y, Jaimes Barragan F. Interacción entre el estadio de la enfermedad renal crónica y la diabetes mellitus como factores asociados con mortalidad en pacientes con enfermedad renal crónica: un estudio de cohortes externas. Nefrología. 2021. doi: https://doi.org/10.1016/j.nefro.2021.04.012 [ Links ]

25. Grant S. Fletcher. Clinical Epidemiology: The Essentials, 6e. Lippincott, Williams & Wilkins; 2020. [ Links ]

26. Kung H, Hanzlick R, Spitler J. Abstracting Data from medical examiner/coroner reports: Concordance among abstractors and implications for data reporting. J Forensic Sci. 2001; 46(5): 15110J. doi: https://doi.org/10.1520/JFS15110J [ Links ]

27. Worster A, Bledsoe R, Cleve P, Fernandes C, Upadhye S, Eva K. Reassessing the methods of medical record review studies in emergency medicine research. Ann Emerg Med. 2005; 45(4): 448-451. doi: https://doi.org/10.1016/j.annemergmed.2004.11.021 [ Links ]

28. Gillespie BW, Laurin L-P, Zinsser D, Lafayette R, Marasa M, Wenderfer SE, et al. Improving data quality in observational research studies: Report of the cure glomerulonephropathy (CUREGN) network. Contemporary Clinical Trials Communications. 2021; 22: 100749. doi: https://doi.org/10.1016/j.conctc.2021.100749 [ Links ]

29. Dyck M, Culp K, Cacchione P. Data quality strategies in cohort studies: Lessons from a study on delirium in nursing home elders. Appl Nurs Res. 2007; 20(1): 39-43. doi: https://doi.org/10.1016/j.apnr.2006.01.004 [ Links ]

30. Ercole A, Brinck V, George P, Hicks R, Huijben J, Jarrett M et al. Guidelines for data acquisition, quality and curation for observational research designs (DAQCORD). J Clin Transl Sci. 2020; 4(4): 354-359. doi: https://doi.org/10.1017/cts.2020.24 [ Links ]

Forma de citar: Yepes Delgado CE, Muñoz González S, Zuleta-Tobón JJ. Aseguramiento y control de la calidad de los datos en un estudio de cohorte en Colombia. Salud UIS. 2023; 55: e23072. doi: https://doi.org/10.18273/saluduis.55.e:23072

Apoyo tecnológico de IA Los autores declaran no haber utilizado inteligencia artificial, modelos de lenguaje, machine learning o alguna tecnología similar como ayuda en la creación de este artículo.

Anexo 1. Formulario en medio físico para la captación de datos de las historias clínicas.