Confiabilidad del cuestionario de calidad de vida en salud SF-36 en Medellín, Colombia

Lugo A, Luz Helena; García G, Héctor Iván; Gómez R, Carlos

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Revista Facultad Nacional de Salud Pública

Print version ISSN 0120-386XOn-line version ISSN 2256-3334

Rev. Fac. Nac. Salud Pública vol.24 no.2 Medellín July/Dec. 2006

Confiabilidad del cuestionario de calidad de vida en salud SF-36 en Medellín, Colombia*

Reliability of sf-36 quality of life in health questionnaire in Medellín, Colombia

Luz Helena Lugo A.¹ • Héctor Iván García G.² • Carlos Gómez R.³

¹ Médica, especialista en medicina física y rehabilitación, magíster en epidemiología, profesora de la Facultad de Medicina de la Universidad de Antioquia, integrante del Grupo Académico de Epidemiología Clínica (graepic)

² Médico, magíster en salud pública, magíster en epidemiología, profesor de la Facultad de Medicina de la Universidad de Antioquia, integrante del Grupo Académico de Epidemiología Clínica (graepic). Cibercorreo: higarcia@quimbaya.udea.edu.co

³ Médico, especialista en psiquiatría, magíster en epidemiología clínica, profesor de la Facultad de Medicina de la Pontificia Universidad Javeriana, Bogotá, Unidad de Epidemiología Clínica y Bioestadística

Recibido: 10 de octubre del 2005 Aceptado: 18 de octubre del 2006

Resumen

Objetivo: evaluar la consistencia interna y la fiabilidad testretest e interevaluador del cuestionario de calidad de vida en salud SF-36 en pacientes con dolor músculo-esquelético, depresión mayor, diabetes mellitus y personas sanas. Métodos: se aplicó por entrevista y autodiligenciado en 605 personas. Se usaron medidas descriptivas para ítems, escalas y grupos; cálculo de consistencia interna de ítems con sus escalas, fiabilidad de escalas y fiabilidad interobservador e intraobservador. Resultados: los datos omitidos fueron de 0% a 1,5%, las correlaciones ítem-escala superaron 0,48, la fiabilidad fue mayor de 0,70. No hubo diferencias en los puntajes de escalas según tipo de aplicación. La fiabilidad inter-observador fue mayor de 0,80; el test-retest superó el 0,70 y no mostró diferencias significativas en las dos aplicaciones. Discusión: el SF-36 es confiable para evaluar calidad de vida en salud después de adaptarse lingüísticamente en adultos colombianos.

Palabras clave

Calidad de vida, calidad de vida relacionada con la salud, escalas de medición, SF-36, fiabilidad

Summary

Objective: to evaluate internal correspondence of questionnaire SF-36, as well as its test-retest and inter-evaluator reliability in patients with muscular-skeletal pain, depression, type II diabetes mellitus and healthy persons. Methods: it was completed by interview and individual filling out of the forms in 605 people. Descriptive measures were used for items, scales and groups; internal correspondence between items and their scales, and inter and intra-evaluator reliabilities were calculated. Results: omitted data ranged from 0% to 1,5%, itemscale correlations were over 0,48, reliability was higher than 0,70. There were no differences in scales scores according to type of application. Inter-evaluator reliability was higher than 0,80; test-retest was over 0,70, showing no significant differences in the two applications. Discussion: SF-36 questionnaire is reliable to evaluate health life quality in Colombian adults after its linguistic adaptation.

Key words

Life quality, health-related life quality, measure scales, SF-36, reliability

Introducción

En las últimas cuatro décadas ha habido un considerable trabajo teórico sobre la calidad de vida (CV), con signi- ficaciones de mayor o menor amplitud según sean las teorías que lo sustentan y el espectro de áreas de la vida de una persona incluidas en su valoración. En un sentido filosófico, CV es lo que hace que una vida sea mejor, que sea “una buena vida”.^{1, 2} En otras perspectivas, es el bienestar mental y espiritual o la cantidad y calidad de las relaciones interpersonales o el funcionamiento e integridad del cuerpo; en su sentido más restrictivo significa poseer bienes materiales.³

La OMS la define en función de la manera en que el individuo percibe el lugar que ocupa en la vida, en el contexto de la cultura y del sistema de valores en que vive, y en relación con sus objetivos, expectativas, normas y preocupaciones.⁴ La calidad de vida relacionada con la salud (CVS) es el componente de la CV debido a las condiciones de salud de las personas y referido a partir de las experiencias subjetivas de ellas sobre su salud global.⁵ Es un concepto multidimensional que incluye componentes físicos, emocionales y sociales asociados con la enfermedad. Los aspectos de la CV que deben evaluarse son controvertidos, ya que para algunos deben ser solo las condiciones físicas, para otros solo la percepción de los pacientes y para otros, ambas.⁶

La CVS toma cada día más relevancia en dos aspectos: ético, para tomar decisiones de los tratamientos médicos, tanto en el caso del consentimiento informado como en el de intervenciones para mantener la vida, y en el campo de los servicios de salud, para establecer prioridades y diseñar, implementar, seguir y evaluar programas de prevención, atención y rehabilitación, usada como complemento de los indicadores tradicionales de morbilidad, mortalidad o expectativa de vida.⁷

Los instrumentos existentes para medir la CVS se clasifican genéricos y específicos. Los primeros incluyen los puntajes globales, los perfiles de salud y las medidas de la utilidad; se emplean en diferentes tipos de enfermedades, pacientes o poblaciones y permiten comparar el impacto de las enfermedades, hacer análisis de costo- utilidad, obtener valores poblacionales de referencia y evaluar programas para asignar recursos. Los especí- ficos se usan en pacientes o poblaciones para evaluar síntomas, funciones o enfermedades.^{8, 9}

Uno de los instrumentos genéricos validado en español es el cuestionario SF-36,^10-13 desarrollado en Estados Unidos. Incluye 36 ítems agrupados en 8 escalas: funcionamiento físico (FF), desempeño físico (DF), dolor corporal (DL), desempeño emocional (DE), salud mental (SM), vitalidad (VT), salud general (SG) y funcionamiento social (FS) y uno adicional, el cambio de la salud en el tiempo.^{11, 13, 14}

El SF-36 en su idioma original mostró confiabilidad y validez de apariencia, de contenido, de criterio (concurrente y predictiva) y de constructo.^{14, 15} Se usó en más de 40 países en el proyecto International Quality of Life Assessment (IQOLA), está documentado en más de 1.000 publicaciones, su utilidad para estimar la carga de la enfermedad está descrita en más de 130 condiciones y por su brevedad y comprensión se usa ampliamente en el mundo. En la validación realizada en España10 se obtuvo una versión en español que mostró coincidencia completa con la ordinalidad original esperada, alta equivalencia con los valores originales y reproducibilidad aceptable, menor que la original.¹⁶

Debido a que en Colombia no hay publicaciones del SF-36, ni disponemos de otro instrumento validado de este tipo, el objetivo de la investigación fue adaptarlo culturalmente y valorar su consistencia interna y su fiabilidad ínterevaluador e intraevaluador en Medellín, Colombia.

Materiales y métodos

Diseño y población

Es un estudio descriptivo para adaptar culturalmente y evaluar la fiabilidad del cuestionario SF-36. La población incluyó colombianos de habla hispana, mayores de 18 años, residentes en Medellín y su área metropolitana, que firmaron consentimiento para participar y que estaban en alguna de estas condiciones:

Dolor músculo-esquelético, que consultaron por primera vez, con evolución de 3 semanas a 3 meses.
Diabetes mellitus tipo II, con más de 6 meses de evolución, en tratamiento con antidiabéticos orales y/o insulina, sin complicaciones graves (retinopatía, neuropatía o nefropatía).
Depresión clínica diagnosticada por un psiquiatra según los criterios del DSM IV, con más de tres semanas de tratamiento farmacológico y condición clínica estable.
Personas sanas, que no hubieran consultado por un trastorno físico ni mental en los últimos 3 meses.

A todos los sujetos elegibles se les aplicó la escala de Zung.¹⁷ En los grupos de sanos, diabetes y dolor músculo-esquelético solo se incluyeron las personas clasificadas con depresión leve o ausente, no los moderados ni los severos. En el grupo de depresión se aceptó cualquier resultado en el test de Zung.

Se captaron consecutivamente en los registros médicos de consulta ambulatoria: dolor músculo-esquelético en la Unidad de Medicina Física y Rehabilitación de la Clínica Las Américas; diabéticos en el programa de control del Centro de Atención Ambulatoria del Instituto de Seguros Sociales; y los pacientes con depresión en el Hospital Mental de Antioquia, las clínicas psiquiátricas INSAM y SAMEIN y miembros de la Asociación Colombiana de Deprimidos. Los sanos fueron acompañantes de la consulta externa de esos hospitales y en las Universidades de Antioquia y Pontificia Bolivariana.

La fiabilidad del cuestionario, que incluyó la consistencia interna de los ítems (correlación entre ellos y su escala correspondiente) y la confiabilidad entre las escalas (alfa de Cronbach) se hizo con 605 personas, mediante dos formas de aplicación (entrevista y autodiligenciado). La fiabilidad interevaluador, cuando se aplicó por parte de dos entrevistadores diferentes en dos días consecutivos, se hizo con 135 de las 341 personas iniciales escogidas al azar. La fiabilidad test-retest se evaluó de 10 a 14 días después de la primera evaluación, a 105 personas diferentes (51 por entrevista y 54 autodiligenciado) seleccionadas al azar.

Las personas que se incluyeron en el análisis de la fiabilidad interevaluador debían cumplir el criterio de regresar al día siguiente o que permitieran una visita domiciliaria y las de la fiabilidad test-retest debían tener disponibilidad para la segunda encuesta. La recolección de los datos la hicieron tres profesionales, una médica y dos sicólogas, previamente capacitadas.

Para definir el tamaño de muestra necesario para valorar la consistencia interna de los ítems y la confiabilidad entre escalas no se encontraron fórmulas estadísticas, por lo que se tomó el mayor número muestral entre los obtenidos para la fiabilidad interevaluador y test-retest, que se estimaron con base en el coeficiente de correlación intraclase (CCI), usando las tablas de Walter¹⁸ y con los estimadores mínimos aceptados por la teoría psicométrica y los reportados para el cuestionario SF-36.^{10, 15, 19, 20}

Los criterios para la muestra de la fiabilidad interevaluador, para 2 mediciones fueron: hipótesis nula ρ₀ = 0,70, hipótesis alterna ρ₁ > 0,80; error α = 0,05, error β = 0,20, lo que dio una muestra de 117 para cada grupo de estudio. Se completó hasta 605 personas para ajustar las pérdidas. Los criterios de la fiabilidad test-retest para dos mediciones fueron: hipótesis nula ρ₀ = 0,80, hipótesis alterna ρ₁ > 0,90, error α = 0,05, error β = 0,20, lo cual dio un número de 45 personas por grupo. En todos los casos se buscó mantener el mínimo de sujetos necesarios para las dos formas de aplicación: autodiligenciada (en presencia de una encuestadora) y entrevista.

El cuestionario de calidad de vida SF-36

Se usó la versión colombiana del SF-36 suministrada por sus autores, que corresponde a la versión en inglés, traducida y retraducida por un grupo de expertos colombianos, con la supervisión de aquellos. La (tabla 1) ilustra los 35 ítems según la dimensión de la calidad de vida que evalúan y el que evalúa el cambio de salud en el tiempo y el anexo, el cuestionario con sus opciones de respuesta.

Tabla 1. Contenido del cuestionario de calidad de vida SF-36 por ítems

Prueba piloto

El SF-36 se probó con 100 pacientes (por entrevista 53 y autodiligenciadas, 47): depresión (21), diabetes (19), dolor músculo-esquelético (20) y acompañantes (40), seleccionados al azar, diferentes de los que se incluyeron en el estudio. La recolección fue en las mismas instituciones mencionadas por dos de los investigadores. Se calculó la frecuencia de respuesta de cada ítem, el tiempo de aplicación y la comprensión del cuestionario. Se identificaron las preguntas que requerían aclaración o que tenían dificultades y los motivos de ello. Se hizo un análisis independiente para cada tipo de aplicación, para identificar diferencias en la comprensión de las preguntas, tiempo y frecuencia de respuesta de ítems y de datos omitidos. Luego de esta prueba se hicieron las adaptaciones semánticas necesarias que no alteraran la estructura de la escala.

Análisis de la información

Los análisis estadísticos se hicieron para toda la muestra y para 16 subgrupos: edad (18-34, 35-64, >= 65), sexo, años de estudio (<= 4, 5, 6-10, 11, >= 12), diagnóstico (4) y modo de aplicación del cuestionario (2). Se usaron las medidas estadísticas: tendencia central y dispersión y porcentajes de respuestas piso y techo, tanto para ítems como para escalas. Con la escala de Zung se calculó para establecer el índice de depresión: ausencia (25-49), leve o mínima (50-59), moderada a marcada (60-69) y severa a extrema (70-100). La integridad de datos en los ítems se determinó por los datos omitidos, los que se imputaron con puntajes según lo establecido por los autores,¹⁵ siempre que en una escala se hubiera respondido al menos 50% de los demás ítems; se calcularon las frecuencias relativas de las respuestas de cada ítem y se describieron con promedios y desviación estándar. Para la consistencia interna se calcularon los coeficientes de correlación de Pearson entre los ítems y sus escalas hipotetizadas, es decir, ajustadas por sobrestimación del ítem dentro de su escala, tanto para toda la población como para subgrupos.¹⁹

El nivel de escalas se valoró con estadísticas descriptivas de tendencia central, dispersión, variabilidad, rango y frecuencias relativas del piso y techo. Se calcularon frecuencias relativas de datos faltantes por ítem en su escala. Los puntajes por escala se trasformaron en una puntuación de 0 a 100 mediante la siguiente fórmula:¹⁵

Escala trasformada = [(puntaje obtenido – puntaje más bajo posible) / rango posible] x 100

La consistencia interna de la escala se determinó con el coeficiente alfa de Cronbach.^{13, 19} Para la fiabilidad interevaluador se usó el CCI. El valor de comparación del coeficiente fue de 0,70 recomendado por los autores y por la teoría psicométrica.19 Para evaluar la fiabilidad test-retest se calculó el CCI para cada escala.

Resultados

Descripción de la primera evaluación

El SF-36 se aplicó por primera vez a 605 personas, 341 (56,4%) fueron por entrevista y 264 (43,6%) autodiligenciados (con presencia de un encuestador), pertenecientes a los siguientes grupos: depresión 144 (23,8%), diabetes 172 (28,4%), dolor músculo-esquelético 150 (24,8%) y sanos 139 (23,0%). El promedio de edad fue 45,7 años (DE: 16,6) y el 66% eran mujeres. En la 8 (tabla 2) se describen las demás características de estudio.

Nivel de los ítems

La frecuencia de datos sin respuesta fue baja: máximo en SG4 con 1,5%. La imputación de los datos faltantes se hizo hasta en el 0,7% para SG1 y 0,6% para FF5. Todos los niveles de los ítems tuvieron alguna respuesta. En general, las distribuciones fueron asimétricas, con porcentajes más altos hacia el mejor estado de salud en los ítems. En las preguntas de la escala funcionamiento físico que implican una menor demanda física, como subir un piso (FF5), caminar cien metros (FF9) o bañarse (FF10), se observó una mayor asimetría hacia la mejor condición de salud. El FF1 que implica la mayor demanda física fue el único que tuvo una desviación a la izquierda. En las escalas desempeño físico y desempeño emocional, que tienen dos opciones de respuesta, la distribución fue similar para cada una, excepto en DE3 que fue más del doble en la mejor condición de salud. En la pregunta cambio del estado de salud, la respuesta del centro (más o menos igual ahora que hace un año) tuvo el mayor número de respuestas (tabla 1).

Tabla 2. Características de la muestra y de los grupos según tipo de diagnóstico

El promedio y la variabilidad de las respuestas de los ítems dentro de cada escala tuvieron valores similares entre sí, excepto en el ítem FF1 (actividades intensas) de la escala FF. La desviación estándar de los ítems con 5 opciones de respuesta (escalas salud general y función social) fue cercana a 1,0. Los coeficientes de variación de los ítems estuvieron entre 30 a 90%.

Todas las correlaciones de Pearson del ítem con su escala hipotetizada fueron superiores a 0,48. Estas correlaciones dentro de la escala fluctuaron poco, con diferencias entre el valor más alto y más bajo de máximo 0,23 para FF (tabla 3). Las medianas de las correlaciones ítem-escala hipotetizadas para cada escala fluctuaron entre 0,57 en SG y 0,82 en dolor.

Tabla 3. Confiabilidad ítem-escala del SF-36^*

Las correlaciones de cada ítem con las demás escalas (validez discriminante) están en la tabla 3 y tuvieron valores más bajos que las correlaciones ítem-escala hipotetizada en su escala, excepto en vitalidad y FS. En vt el no éxito lo tuvo el ítem 2 con una correlación más alta con salud mental y con FS.

Nivel de las escalas

El máximo porcentaje de datos incompletos por escala antes de hacer imputaciones fue 1,1% para SG. Las escalas con más datos omitidos fueron SG, SM y VT. Después de hacer las asignaciones de respuestas a los datos omitidos, las proporciones de personas que tuvieron todos los datos completos variaron entre 98,7 y 100%. El porcentaje de personas que respondieron la opción mínima (efecto piso) fue notorio en DF (32,2%) y DE (27,4%), en las demás no fue importante. El efecto techo (proporción de respuestas para la mayor opción) fue alto en las escalas DE (47,6%), DF (42,1%), FS (30,1%), DL (25,7%) y FF (24,0%). Las escalas bipolares (que varían desde una condición negativa hasta una condición positiva) SG, VT y SM tuvieron un efecto piso-techo insignificante.

Las medias de los puntajes transformados para las escalas variaron desde 54,0 (desviación estándar: 44,3) en DF y 59,3 (DE: 43,2) en DE hasta 77,5 (DE: 24,1) en FF. Las desviaciones estándar fluctuaron entre 24,1 y 44,3 (de un rango posible de 0 a 100 puntos) y los coefi- cientes de variación lo hicieron entre 31,1 y 82,1%. En la tabla 3 se observa el coeficiente alfa de Cronbach de las escalas, cuyo valor mínimo fue de 0,80 para FS. Los valores más altos fueron para DF, DL y SM.

Análisis por grupos

Las correlaciones ítem-escala en los grupos de edad, sexo y escolaridad fueron mayores de 0,40. La consistencia ítem-escala para los diagnósticos fue mayor de 0,40. Los coeficientes de Cronbach superaron en todos los grupos el estándar de 0,70 (tabla 4). El 56,4% (341) de las evaluaciones se hicieron por entrevista, con un promedio de edad de 47,4 años y predominio de mujeres (64%); 38,3% tenían estudios universitarios. El grupo a quienes la encuesta se hizo autodiligenciada tenía una edad media de 43,5 años, 68,2% eran mujeres y 42,6% tenían más de 11 años de escolaridad. Los puntajes promedio de las escalas fueron similares según las dos formas de aplicación. Ambos grupos tuvieron un promedio alto en las escalas DF y luego en la DE. El rango de respuestas para casi todas las escalas en ambos grupos estuvo entre 0 y 100. El comportamiento de los efectos piso y techo fue similar a los obtenidos en la muestra total y no hubo diferencias significativas entre ellos. La confiabilidad ítem-escala fue similar en los dos modos de aplicación y estuvo por encima de 0,50, excepto en FF de los entrevistados (tabla 4). Los coeficientes de Cronbach fueron similares en las dos formas y estuvieron por encima de 0,80 menos en FS de los autodiligenciados (0,77).

Tabla 4. Confiabilidad ítem-escala y coeficientes de confiabilidad alfa de Cronbach del SF-36 por grupos

Fiabilidad interobservador e intraobservador

La fiabilidad de las escalas entre dos observadores distintos se ilustra en la figura 1a. Los valores de los CCI de todas las escalas fueron superiores a 0,80. En la figura 1b se muestran los resultados de los CCI para dos observaciones del mismo evaluador, que estuvieron por encima de 0,70. Solo los límites inferiores del intervalo de confianza de los CCI de las escalas DL y cambio de salud fueron menores de ese valor.

Figura 1a. Coeficiente de correlación intraclase de la fiabilidad interevaluador

Figura 1b. Coeficiente de correlación intraclase de la fiabilidad intraevaluador

Calidad de vida de los grupos

Los puntajes promedio de las escalas transformadas de los grupos de diagnóstico están en la figura 2. Todos los puntajes de los pacientes deprimidos, diabéticos y con dolor músculo-esquelético fueron menores a los sanos. En los deprimidos, los puntajes más bajos fueron en la escala salud mental (DE, SM, FS, VT); en los diabéticos, la escala de menor puntaje fue DF (60,0); entre los sujetos con dolor músculo-esquelético, la escala DF fue muy baja (37,2) y en los sanos, todos los puntajes estuvieron por encima de 70. La calificación que las personas hacen sobre su estado de salud presente comparado con el de hace un año tuvo puntajes bajos (menores de 62) en todos los grupos.

Figura 2. Perfil de la calidad de vida en grupos de diagnóstico

Discusión

Esta investigación se hizo para suplir la falta de un instrumento genérico de evaluación de la CVS disponible para los trabajadores de salud en Colombia. Se seleccionó el cuestionario SF-36 por usarse ampliamente en enfermedades crónicas,^21-26 degenerativas^{27, 28} y agudas;^{29, 30} en diferentes grupos de edad y sexo,^{31, 32} en salud pública y en medición de consecuencias de las enfermedades.^{33, 34} No se validó sino que se adaptó culturalmente y se evaluó su fiabilidad porque hay estudios que la hacen en cuanto al contenido,¹¹ constructo,¹² validez convergente, divergente y predictiva^{11, 12} y al cambio en el tiempo,³⁵ y porque hay una versión española con equivalencia lingüística entre los ítems traducidos y los originales y con coeficientes de Cronbach entre 0,7 y 0,94.¹⁰

Los datos omitidos encontrados (máximo de 1,5% en el ítem SG4) fueron menores que en IQOLA y en países escandinavos que hicieron autoaplicación del ins- trumento fue de 11,5%,³⁶ y fueron parecidos a los de países que hicieron entrevistas o administración telefónica: ^{37, 38} Italia (0,6% en VT1), España (2,5% en SF1), Reino Unido (1,9% en FF1) y Estados Unidos (1,8% en FF1 y DE3).

Las escalas con más datos omitidos fueron SG, SM y VT, que tienen posibilidades de respuesta múltiple tipo Likert. De acuerdo con la prueba piloto, este tipo de respuestas fueron las que presentaron mayor grado de dificultad. Nuestros hallazgos son superiores al iqola y cercanos a los de Italia, en donde la mitad del estudio fue por entrevista. Después de asignar respuestas a los datos omitidos según las normas del SF-36, las proporciones de personas que tuvieron todos los datos completos fueron mayores a 98,7%, también superiores a IQOLA, excepto Italia y Japón. Lo anterior muestra una buena integridad de los datos y permite concluir que este instrumento fue comprendido en la población y que es posible con él obtener información adecuada en diferentes grupos.

La distribución de frecuencias de respuestas de cada uno de los ítems fue similar a los reportados por el MOS.^{11, 36} En el ítem de percepción de salud de la escala salud general, es notorio el bajo porcentaje de respuesta de la última opción, en ambos estudios.

Los puntajes promedio de los ítems de este estudio fueron similares a MOS e IQOLA, aunque en función social todos fueron menores a los primeros. La desviación estándar de los ítems con cinco opciones de respuesta (escalas SG y FS) fue cercana a 1,0, tal como lo recomienda Levy.³⁹ La magnitud y amplitud de los coeficientes de variación, que variaron desde 30 a 90% (datos no mostrados), indican la capacidad de las preguntas de medir todo el espectro posible de condiciones de salud de las personas y es una de las propiedades de la escala en otros estudios.

Todas las correlaciones ítem-escala hipotetizadas fueron superiores a 0,48, que es mayor a 0,40 aceptado en psicometría para definir que el ítem mide el concepto que pretende medir dentro de la escala.^{13, 14, 19, 40} Los puntajes más bajos se obtuvieron en FF10, que es el único ítem que mide limitaciones severas, y en el FF1 (limitaciones para hacer actividades intensas), lo que es consistente con hallazgos en que las correlaciones más bajas se obtienen en los extremos del concepto. Las correlaciones de cada ítem con las demás escalas tuvieron valores más bajos que las correlaciones ítemescala hipotetizada en su escala. Esto es necesario para garantizar la fiabilidad del instrumento, ya que indica que el ítem no está midiendo lo que las otras escalas pretenden medir (validez discriminante).¹⁹ El estándar de 0,40 en las correlaciones ítem-escala se alcanzó en 98,5% (414/420), mientras que en el proyecto MOS fue de 97% (814/840). La confiabilidad ítem-escala fue similar en los dos modos de aplicación y estuvo por encima de 0,50.

Con respecto a las escalas, las limitaciones en las comparaciones de nuestros hallazgos con los de otros países son mayores, debido a que en estos los muestreos fueron poblacionales. Al comparar con el MOS (que tiene una muestra no poblacional), los promedios fueron similares, excepto en la FS (80,5 frente a 67,4), SM (71,4 frente a 64,9) y en VT (53,5 frente a 63,2), donde las diferencias son mayores de 10 puntos. La magnitud y amplitud de los valores de las desviaciones estándar (24,1-44,3) para un rango posible de 0 a 100 puntos, y de los coeficientes de variación (31 a 82%) reflejan la diversidad de la CV de las personas del estudio. El rango posible de calificaciones de cada una de las escalas (0 a 100 puntos) se observó en todas ellas. Todos los coeficientes de asimetría (valores no mostrados) fueron negativos, lo que indica una distribución con mayor proporción de personas en los estados de salud positivos notorios con una asimetría derecha evidente. La curtosis fue negativa en todas las escalas, excepto para la FF.

El comportamiento de los efectos piso y techo para las escalas DE y DF fue notorio y similar a otros estudios,^{11, 12} explicado porque solo tienen dos opciones de respuesta.

El SF-36 mostró su fiabilidad en los 16 grupos (mayor de 0,70). El coeficiente de Cronbach de las escalas fue mayor que 0,80 (el mínimo aceptado internacionalmente es 0,70).¹⁹ Los valores mayores de 0,90 fueron para DF, DL y SM, similares al MOS y al IQOLA. Los coeficientes alfa de Cronbach fueron también similares entre las dos formas de aplicación y en ambos estuvieron por encima de 0,70, lo que coincide con el mos que evaluó las diferencias entre la aplicación de la encuesta por teléfono y por correo o el estudio de Australia, que comparó una aplicación autodiligenciada con la administrada por teléfono.^{38, 39} Esto permite considerar la aplicación futura por cualquiera de las dos formas. Como en este estudio, en más de 25 que incluyen comparaciones de grupos la confiabilidad siempre excedió el mínimo de 0,70; la mayoría superó 0,80.

Los valores del CCI superiores de 0,80 indican que los resultados no se modificaron por haber sido aplicado por dos observadores con 24 horas de diferencia, por lo que se puede recomendar su aplicación por parte de diferentes observadores. No se encontraron estudios similares en bibliografía consultada.

El instrumento es estable en el tiempo, ya que la fiabilidad intraobservador fue alta (por encima de 0,70). Solo los límites inferiores del intervalo de confianza de los CCI de las escalas DL y cambio de salud fueron menores de ese valor, resultados diferentes de España,¹⁰ donde obtuvieron tres escalas con valores menores de 0,70: DL, FS y DE.

Los puntajes promedio de las escalas según los grupos de edad tuvieron una tendencia decreciente según ella; fueron más altos para las personas más jóvenes, entre los 18 y 34 años, y menores en los mayores de 64 años, excepto en la escala de SM. Todos los puntajes de CV de los hombres fueron mayores que los de las mujeres. Según la escolaridad, las puntuaciones de las escalas de quienes habían cursado estudios universitarios fueron notoriamente mayores que las de los otros grupos. No existió una tendencia creciente a mejores puntuaciones de CV según una mayor escolaridad y llama la atención que los promedios de los del grupo que no completó el bachillerato son similares a los del grupo que no terminó la educación primaria (datos no mostrados).

Los resultados obtenidos muestran que la versión colombiana en español del cuestionario sf-36 es un instrumento adaptado y confiable que puede utilizarse en el país para el estudio de la CVS de personas sanas o enfermas, mayores de 18 años de edad, alfabetas con cualquier grado de escolaridad, mediante entrevista o autodiligenciado asistido, debido a la dificultad de algunas preguntas y para garantizar un menor número de datos omitidos.

Financiación

Esta investigación fue financiada por la International Clinical Epidemiology Network (INCLEN) y cofinanciada por la Vicerrectoría de Investigaciones de la Universidad de Antioquia.

^* Este artículo es resultado de la investigación “Adaptación cultural y fiabilidad del Cuestionario de calidad de vida en salud SF-36 en instituciones de salud de Medellín, Colombia”, realizada para optar al título de magíster en epidemiología

Referencias

1. Brock D. Medidas de calidad de vida en el cuidado rock de la salud y la ética médica. En: Nussbaum MC, Sen A, compiladores. La calidad de vida. México, D. F.: The United Nations University, Fondo de Cultura Económica, 1998. p.135-181. [ Links ]

2. Parfit D. Reasons and persons, citado por Dan Brock. Medidas de la calidad de vida en el cuidado de la salud y la ética médica. En: Nussbaum MC, Sen A, compiladores. La calidad de vida. México, D. F.: The United Nations University, Fondo de Cultura Económica, 1998. p. 135-182. [ Links ]

3. Dijkers M. Quality of life after spinal cord injury: a meta-analysis of the effects of disablement components. Spinal Cord 1997;35:829-40. [ Links ]

4. Organización Mundial de la Salud, Grupo sobre la Calidad de Vida. ¿Qué calidad de vida? Foro Mundial de la Salud 1996;17(4):385-87. [ Links ]

5. O’Connor R. Development of the health effects scales. Working Paper 43, National Centre for Health Program Evaluation. Melbourne: NHMRC; 1995. p. 3-17. [ Links ]

6. Spilker B, Revicki DA. Taxonomy of quality of life. En: Spilker B, editor. Quality of life and pharmacoeconomics in clinical trials. 2.ª ed. Filadelfia: Lippincott- Raven Publishers; 1996. p. 25-36. [ Links ]

7. O’Connor R. The development of models for allocation ATSIC housing and infrastructure funds. For the Aboriginal and Torres Strait Islander Commision. En: O‘Connor R. Development of the health effects scales. Working Paper 43. National Centre for Health Program Evaluation. Melbourne: NHMRC; 1995. p. 3-17. [ Links ]

8. Guyatt GH, Feeny DH, Patrick DL. Measuring Health-related Quality of Life. Ann Int Med 1993;118(8):622-629. [ Links ]

9. Bergner M, Bobitt RA, Carter WB, Gilson BS. The sickness impact profile: development and fi- nal revision of a health status measure. Med Care 1981;19:787. [ Links ]

10. Alonso J, Prieto L, Antó JM. La versión española del SF-36 Health Survey (Cuestionario de Salud SF- 36): un instrumento para la medida de los resultados clínicos. Medicina Clínica 1995;104(20):771-776. [ Links ]

11. Ware JE Jr, Sherbourne CD. The MOS 36-ítem short form health survey: I. Conceptual framework and item selection. Med Care 1992;30(6):473-483. [ Links ]

12. McHorney CA, Ware JE Jr, Raczek AE. The MOS 36-Item short-form health survey (SF-36): II. Psychometric and clinical tests of validity in measuring physical and mental health constructs. Med Care 1993;31(3):247-263. [ Links ]

13. McHorney CA, Ware JE Jr, Rachel JF, Sherbourne CD. The MOS 36-Item short-form health survey (SF-36): III. Tests of data quality, scaling assumptions, and reliability across diverse patients groups. Med Care 1994;31(1):40-66. [ Links ]

14. Ware JE Jr. SF-36 Health Survey Update. Spine 2000;25(24):3130-3139. [ Links ]

15. Ware JE Jr, Snow KK, Kosinski M, Gandek B. SF- 36 Health Survey manual and interpretation guide. Boston: The Health Institute, New England Medical Center; 1993. p. 1-31. [ Links ]

16. Ware JE Jr, Gandek BL, Keller SD, IQOLA Project Group. Evaluating instruments used cross-nationally: methods from the IQOLA Project. En: Spilker B, editor. Quality of life and pharmacoeconomics in clinical trial. 2.ª ed. Filadelfia: Lippincott-Raven Publishers; 1996. p. 681-92. [ Links ]

17. Zung W. A self-rating depression scale. Arch Gen Psych 1965;12:63-70. [ Links ]

18. Walter SD, Eliasz M, Donner A. Sample size and optimal designs for reliability studies. Stat Med 1998;17:101-110. [ Links ]

19. Ware JE Jr, Gandek B. Methods for testing data quality, scaling assumptions, and reliability: The IQOLA Proyect Approach. J Clin Epidemiol 1998; 51(11):945-952. [ Links ]

20. Nunnally JC, Bernstein IR. Psychometric theory. 3.ª ed. Nueva York: McGraw-Hill; 1994. [ Links ]

21. Stier DM, Greenfield S, Lubeck DP, Dukes KA, Flanders SC, Henning JM et al. Quantifying comorbidity in a disease-specific cohort: adaptation of the total illness burden index to prostate cancer. Urology 1999;54(3):424-429. [ Links ]

22. Eiser C, Kopel S, Cool P, Grimer R. The Perceived Illness Experience Scale (PIE): reliability and validity revisited. Child: Care, Health & Development 1999;25(3):179-190. [ Links ]

23. Keller SD, Ware JE, Hatoum HT. The SF-36 Arthritis- Specific Health Index (ASHI): II. Tests of validity in four clinical trials. Med Care 1999;60(5Suppl): 60. [ Links ]

24. Kosinski M, Keller SD, Ware JE Jr, Hatoum HT, Kong SX. The SF-36 Health Survey as a generic outcome measure in clinical trials of patients with osteoarthritis and rheumatoid arthritis: relative validity of scales in relation to clinical measures of arthritis. Med Care 1999;37(5 Suppl):MS3-39. [ Links ]

25. Thumboo J, Fong KY, Ng TP, Leong KH, Feng PH, Boey ML. Initial construct cross-cultural validation of the Short Form 36 for quality of life assessment of systemic lupus erythematosus patients in Singapore. Annals of the Academy of Medicine 1997;26(3):282-284. [ Links ]

26. Durham SR, Sun PP, Sutton LN. Surgically treated lumbar disc disease in the pediatric population: an outcome study. J Neurosurgery 2000;921 Suppl 1:1-6. [ Links ]

27. Wagner AK, Ehrenberg BL, Tran TA, Bungay KM, Cynn DJ, Rogers WH. Patient-based health status measurement in clinical practice: a study of its impact on epilepsy patients‘ care. Quality of Life Research 1997;6(4):329-341. [ Links ]

28. Hermann BP, Vickrey B, Hays RD, Cramer J, Devinsky O, Meador K et al. A comparison of healthrelated quality of life in patients with epilepsy, diabetes and multiple sclerosis. Epilepsy Research 1996;25(2):113-118. [ Links ]

29. Bessette L, Sangha O, Kuntz KM, Keller RB, Lew RA, Fossel AH et al. Comparative responsiveness of generic versus disease-specific and weighted versus unweighted health status measures in carpal tunnel syndrome. Med Care 1998;36(4):491-502. [ Links ]

30. Krousel-Wood MA. Predicting work status for patients in an occupational medicine setting who report back pain. Archives Family Medicine 1994;3(4):349-355. [ Links ]

31. Wolinsky FD, Wan GJ, Tierney WM. Changes in the SF-36 in 12 months in a clinical sample of disadvantaged older adults. Med Care 1998;36(11):1589- 1598. [ Links ]

32. Kutner NG, Schechtman KB, Ory MG, Baker DI. Older adults’ perceptions of their health and functioning in relation to sleep disturbance, falling, and urinary incontinence. FICSIT Group. J Am Geriatrics Soc 1994;42(7):757-762. [ Links ]

33. Keller SD, Bayliss MS, Ware JE Jr, Hsu MA, Damiano AM, Goss TF. Comparison of responses to SF-36 Health Survey questions with one-week and four-week recall periods. Health Serv Res 1997;32(3):367-384. [ Links ]

34. Lawrence WF, Fryback DG, Martin PA, Klein R, Klein BE. Health status and hypertension: a population-based study. J Clin Epidemiol 1996; 49(11):1239-1245. [ Links ]

35. Ware JE Jr. The SF-36 Health Survey (SF-36). En: Spilker B, editor. Quality of life and pharmacoeconomics in clinical trials. 2.ª ed. Filadelfia: Lippincott- Raven Publishers; 1996. p. 337-345. [ Links ]

36.36. Rob W., Fisher S., Perkins J. Adaptation and validation of the SF-36 Health Survey for use in Australia. J Clin Epidemiol 1998;51(11):961-967. [ Links ]

37. McHorney CA, Kosinski M, Ware JE Jr. Comparisons of the costs and quality of norms for the SF-36 Health Survey collected by mail versus telephone interview: results from a national survey. Med Care 1994;32(6):551-567. [ Links ]

38. Perkins JJ, Sanson-Fisher RW. An examination of self and telephone-administered modes of administration for the Australian SF-36. J Clin Epidemiol 1998;51(11):969-973. [ Links ]

39. Levy KJ. Some multiple range tests for variances. Educ Psychol Measmt 1975;35:599-604. [ Links ]

40. Ware JE Jr,. Keller SD. Interpreting general health measures. En: Spilker B, editor. Quality of life and pharmacoeconomics in clinical trials. 2.ª ed. Filadel- fia: Lippincott-Raven Publishers; 1996. p. 445-460. [ Links ]