SciELO - Scientific Electronic Library Online

 
vol.66 issue1Effect of Addition of Hydrocolloids on Rheological Properties of the Brines Used to Prepare Cooked Ham author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Revista Facultad Nacional de Agronomía Medellín

Print version ISSN 0304-2847

Rev. Fac. Nac. Agron. Medellín vol.66 no.1 Medellín Jan./June 2013

 

NOTA TÉCNICA

El Análisis de Covarianza como Mecanismo de Control de Factores de Confusión

Analysis of Covariance as a Methodology to Control Confounding Variables

Guillermo Correa Londoño1

1 Profesor Asociado. Universidad Nacional de Colombia - Sede Medellín - Facultad de Ciencias Agrarias - Departamento de Ciencias Agronómicas. A.A. 1779, Medellín, Colombia <gcorrea@unal.edu.co>

Recibido: Septiembre 19 de 2012; aceptado: Noviembre 20 de 2012.


Resumen

Parte de la variabilidad total en un estudio experimental puede explicarse por factores que son asignados y/o controlados por el investigador y que son de interés primario para este. Asimismo, los experimentos suelen involucrar factores que a pesar de su carácter secundario también afectan la respuesta. El mecanismo más comúnmente usado para controlar el efecto de factores secundarios es el bloqueo. Existen, sin embargo, situaciones en las que la fuente de variación secundaria solamente se reconoce tras haberse iniciado el experimento y/o en las que sus niveles no configuran categorías que permitan agrupar unidades experimentales homogéneas; en tales casos, podría considerarse la utilización de covariables para satisfacer los mismos objetivos que el bloqueo. Para aplicar una adecuada corrección mediante análisis de covarianza deben satisfacerse dos condiciones: la viabilidad y la pertinencia. La viabilidad se refiere a la posibilidad de explicar parte de la variabilidad de la respuesta en función de la covariable, mediante un modelo de regresión. La pertinencia tiene que ver con la adecuación de la corrección aplicada, considerando que al eliminar el efecto de la covariable no se arrastre parte del efecto de los tratamientos. La viabilidad suele evaluarse con apoyo de algún programa estadístico; la pertinencia, por su parte, exige una aproximación conceptual.

Palabras clave: Validez interna, métodos.


Abstract

Some portion of the total variability in an experimental study can be explained by factors that are controlled and/or assigned by the researcher, and that are of his primary interest. Likewise, experiments usually involve factors that, despite their ancillary nature, also affect the response. Blocking is the most widely used mechanism to control the effect of ancillary factors. There are, however, situations in which the secondary source of variation is recognized only after the experiment has been started and/or in which its levels don't allow to group homogeneous experimental units. In such cases, it would be feasible to evaluate the use of analysis of covariance to achieve the same objectives that blocking does. In order to apply an adequate correction via analysis of covariance it is necessary to fulfill two conditions: viability and pertinence. Viability refers to the possibility to relate, by means of a regression model, a fraction of the variability of the response to the covariate. Pertinence has to do with the adequacy of the applied correction, taking into account that the elimination of the effect of the covariate doesn't extract some part of the treatment's effect. Viability is usually evaluated with the assistance of some statistical software. Pertinence, on the other hand, requires a conceptual approach.

Key words: Internal validity, statiscal methods, general linear model, randomized complete block design.


La validez interna de un experimento está dada por su potencial para generar inferencias válidas. Este potencial se alcanza mediante el encadenamiento de unas adecuadas prácticas durante todas las etapas de la experimentación: planeación, ejecución y análisis.

El esquema de aleatorización es un aspecto clave que debe definirse durante la etapa de planeación del experimento. La situación más sencilla se da cuando tanto las condiciones experimentales como el material experimental son homogéneos, sin que sean detectables fuentes de variación adicionales a los tratamientos. En este caso se realiza una aleatorización irrestricta o completa. Si se detectan posibles fuentes de variación adicionales a los tratamientos, el esquema de aleatorización se elige de manera que permita controlar tales factores, haciendo que sus efectos sean separables de los factores de interés. Esto se logra mediante esquemas de aleatorización que asignen los tratamientos a las unidades experimentales ortogonalmente a los factores secundarios. Los esquemas de bloques completos y de cuadros ortogonalizados lo hacen así. El rol del investigador en esta etapa consiste en identificar los factores que sin ser de interés primario, podrían afectar la respuesta; con base en dicha información, podrá definirse conjuntamente con el estadístico el esquema de aleatorización más adecuado.

Durante la ejecución del experimento, una vez aplicada la aleatorización y acorde con esta, la forma en que se realicen las labores complementarias puede propiciar o afectar la validez interna del experimento. Las labores complementarias deben realizarse homogéneamente dentro de grupos, dependiendo del esquema de aleatorización que se haya utilizado. Esto permite controlar simultáneamente el error experimental y posibles factores de confusión, lo que propicia la validez interna del experimento.

En adición a las anteriores prácticas de buena planeación y ejecución experimental, existe una técnica que en ocasiones puede aplicarse durante la etapa del análisis del experimento para controlar el efecto de posibles factores de confusión: el análisis de covarianza. Si bien es cierto que en muchas ocasiones se considera esta técnica desde la planeación misma del experimento y se trabaja activamente durante la ejecución en pro de obtener la información necesaria para su análisis, no son menos frecuentes los casos en que esta técnica surge durante la etapa de análisis como medida correctiva. De hecho, el reconocimiento temprano de posibles factores de confusión permite en muchas ocasiones que estos sean controlados mediante los esquemas de aleatorización, sin que se requiera el uso de covariables. En otros casos, aun habiéndose tomado todas las previsiones posibles, se hace necesario el uso de covariables para controlar el efecto de posibles factores de confusión.

De lo anteriormente expuesto, se colige que la serie de buenas prácticas que el investigador observa durante las diferentes etapas de la experimentación, y que tienen como meta final propiciar la validez interna, actúan mediante el control de posibles factores de confusión. Un factor de confusión es aquella fuente de variación no controlada en un experimento que puede causar parte o la totalidad de los cambios observados en la respuesta y cuyo efecto no es separable del efecto de los factores de interés.

No todas las fuentes de variación secundarias o adicionales a tratamientos constituyen factores de confusión. Cuando se usan diseños y/o modelos para controlar y eliminar el efecto las fuentes de variación secundarias, se previene que estas actúen como factores de confusión, en cuyo caso, dependiendo del diseño, se les llama genéricamente bloques, filas, columnas, letras griegas o covariables.

Con el fin de adentrarnos en el análisis del control de posibles factores de confusión, en adelante no se considerará la situación en la que no se reconocen fuentes de variación adicionales a tratamientos. Esto no implica que en tales casos no puedan existir y actuar factores de confusión; solo implica que al no ser reconocidos, no es posible ejercer control sobre los mismos. Por tanto, solamente se tendrán en cuenta las situaciones experimentales en las que se reconocen fuentes de variación adicionales a tratamientos, lo que posibilita el uso de herramientas estadísticas para su control.

La estrategia más frecuente para el control de fuentes de variación secundarias es el bloqueo. Para la aplicación de esta técnica es necesario reconocer tales fuentes con antelación a la asignación de los tratamientos a las unidades experimentales, puesto que sus categorías se usan como criterio de agrupación de unidades experimentales homogéneas dentro de las cuales se aleatorizan los tratamientos. En tales casos, sin importar que los niveles de tales fuentes de variación secundarias sean numéricos o categóricos, el Anava siempre los considera como categóricos, sin hacer uso en ningún caso de la eventual información numérica que tales niveles pudieran contener.

En ocasiones existe una fuente de variación adicional a tratamientos cuyos niveles no son utilizados para restringir el esquema de aleatorización de los tratamientos. Esto puede suceder por dos razones: la primera, porque dicha fuente se reconoce luego de haberse iniciado el experimento o incluso tras haberse finalizado; la segunda, porque sus niveles no configuran categorías que permitan agrupar unidades experimentales homogéneas, sino que están constituidos por un continuo de diferentes resultados de una variable numérica, lo que hace inconveniente bloquear con base en dicha fuente, incluso habiéndose reconocido con antelación al inicio del experimento. En tales casos, a la fuente de variación secundaria cuyo efecto sobre la respuesta se desea eliminar se le llama variable concomitante o covariable.

Así, por tanto, el análisis de covarianza puede conceptualizarse como una técnica estadística para eliminar el efecto de fuentes de variación secundarias en un experimento, de manera análoga a como se hace mediante el bloqueo o sus generalizaciones, diferenciándose, sin embargo, en que los niveles de la covariable son numéricos y que estos no se utilizan para restringir la forma en que los tratamientos son asignados a las unidades experimentales.

El análisis de covarianza se basa en un modelo lineal aditivo, en el que además de los tratamientos, que siempre actúan como variables categóricas o de clasificación, se involucra una variable predictora numérica que no es fijada por el investigador. Mediante un modelo de regresión de la respuesta en función de la covariable, que se ajusta dentro de cada uno de los tratamientos, es posible extraer la variabilidad aportada por la covariable, haciendo posible la comparación de los tratamientos, vía análisis de varianza, sin el sesgo de la covariable. El análisis de covarianza combina, por tanto, análisis de regresión y análisis de varianza.

De lo expuesto anteriormente, surge una primera condición que debe satisfacer cualquier característica que se use en un modelo en calidad de covariable: que explique parte de la variabilidad de la respuesta. A esta condición la denominaremos viabilidad y profundizaremos posteriormente en el análisis de la misma.

Cuando se utiliza la técnica de bloqueo o alguna de sus generalizaciones para eliminar parte de la variabilidad de la respuesta, no existe el riesgo de extraer parte del efecto de los tratamientos. La ortogonalidad entre tratamientos y factores de bloqueo que caracteriza los esquemas de aleatorización de los diseños en bloques completos garantiza que todos los efectos sean separables, libres del efecto de otros factores. En contraste, al extraer el efecto de un factor secundario mediante análisis de covarianza, sí existe la posibilidad de arrastrar también parte del efecto de los tratamientos. Esto sucedería si se utilizara como covariable una característica cuyos valores dependieran de los tratamientos, con lo cual estaría afectándose la validez interna que se pretendía propiciar. Consecuentemente, habrá que garantizar que exista independencia entre la covariable y los tratamientos.

La forma más obvia de garantizar independencia entre la covariable y los tratamientos es mediante el uso de covariables cuya manifestación sea previa a la aplicación de los tratamientos. Esto asegura que la covariable no ha surgido como respuesta a la aplicación de los tratamientos.

En el área de nutrición animal, las unidades experimentales suelen estar constituidas por animales sobre los cuales se evalúa la ganancia de peso en respuesta a diferentes dietas. Si el investigador sospecha que en adición al factor principal, dietas, hay factores secundarios que también pueden afectar la ganancia de peso, y los niveles de tales factores secundarios pueden medirse cuantitativamente, como sería el caso del peso inicial o la edad en semanas, es posible extraer, mediante regresión, el efecto que tales factores secundarios pudieran ejercer sobre la respuesta, posibilitando evaluar el efecto del factor principal libre del efecto de los factores secundarios. En este caso, no existe riesgo de que la corrección aplicada, vía regresión, arrastre parte del efecto de los tratamientos, ya que al trabajar con factores secundarios cuya manifestación antecede a la asignación de los tratamientos, se tiene la certeza de que ninguno de ellos surgió como respuesta a los tratamientos.

El uso como covariable de alguna característica cuyos valores diferenciales puedan haber surgido en respuesta a los tratamientos es inadecuado; en tal caso, la corrección que se aplica mediante regresión extraería parte del efecto de los tratamientos. Esto sucedería si, por ejemplo, junto con la medición de la ganancia de peso en bovinos se hiciera al final del experimento una medición de la alzada del animal para utilizarla como covariable, pues muy probablemente las diferentes alzadas serían consecuencia de las diferentes dietas suministradas. En este caso, a pesar de que el uso de tal característica como covariable pueda ser viable, no resultaría pertinente.

Nótese que la viabilidad constituye una exigencia netamente técnica para poder usar una característica como covariable, mientras que la pertinencia tiene que ver con la adecuación de la corrección resultante. La viabilidad de usar una característica como covariable suele evaluarse con apoyo de algún programa estadístico; la pertinencia es un aspecto que el investigador debe abordar conceptualmente y que a pesar de estar superpuesto con el concepto de independencia entre la covariable y los tratamientos no es sinónimo de este.

Aunque el único caso en que puede garantizarse que las covariables no se han presentado en respuesta a los tratamientos es cuando se usan características cuya manifestación precede a la aplicación de los tratamientos, no significa que esta constituya la única posibilidad válida. Si a partir del conocimiento de las relaciones causa-efecto involucradas en el fenómeno, el investigador puede sustentar que una característica no ha surgido en respuesta a la aplicación de los tratamientos, esta podrá usarse como covariable, aun si esta se mide al final del experimento. En estos casos, la independencia entre la covariable y los tratamientos, hace que el uso de tal covariable sea pertinente.

Existen situaciones en las que no resulta muy claro si la utilización de una característica dada como covariable es pertinente o no, pudiéndose manejar diferentes alternativas, acorde con el conocimiento que se tenga del fenómeno y con el uso que se les pretenda dar a los resultados.

Continuando con el ejemplo de comparación de diferentes dietas en animales, podría plantearse el uso del consumo como covariable. Por una parte, se tiene que esta característica afecta de manera directa la ganancia de peso, por lo que se satisface la condición de viabilidad. De otro lado, habría que considerar la independencia entre la covariable y los tratamientos; esto es, si el hecho de que el consumo sea alto o bajo pude depender de la dieta suministrada o surgir en respuesta a ésta.

Si se concluye que el consumo efectivamente depende de la dieta, en virtud de sus características organolépticas, que la hacen más o menos apetecible para los animales, resulta claro que al usar el consumo como covariable, la correspondiente corrección estaría eliminando una de las características que diferencia las dietas, con lo cual resultaría dudosa la pertinencia de dicha covariable, a no ser que se incorporen otras consideraciones.

En un primer escenario, en el que las características organolépticas de las dietas sean inherente a estas y en el que cualquier mecanismo para cambiarlas implique cambiar las dietas mismas, el uso del consumo como covariable no sería pertinente, pues con ello se estaría extrayendo uno de los componentes que diferencia las dietas y que hace que estas sean más o menos adecuadas.

No obstante, si el escenario experimental se corresponde con una situación en la que las características organolépticas son relativamente fáciles de modificar sin afectar las propiedades nutricionales y lo que se desea evaluar es el potencial nutricional de cada dieta, podría resultar pertinente el uso del consumo como covariable, en cuyo caso se estarían contrastando hipótesis sobre las diferencias en el efecto de las dietas, suponiendo iguales consumos, que es precisamente lo que hace la regresión, esto es, poner a todos los tratamientos en igualdad de condiciones en cuanto a la covariable, de modo que sean comparables.

En ensayos agronómicos en los que se evalúa el rendimiento como variable respuesta, a menudo se utiliza el número de plantas por parcela como covariable, lo cual es pertinente siempre que el número final de plantas por parcela no sea consecuencia de los tratamientos. De este modo, podría pensarse que tal covariable es pertinente si los tratamientos consisten, por ejemplo, en diferentes dosis de algún fertilizante, a menos que se tengan argumentos para suponer que la mortalidad en algunas unidades sea la respuesta a dosis exageradas o a deficiencias nutricionales en alguno de los tratamientos. Si se supiera que la mortalidad se debió a una causa totalmente ajena a los tratamientos, por ejemplo, una granizada, sería pertinente el uso de dicha covariable. Por otra parte, en un ensayo en el que se estuvieran evaluando, por ejemplo, diferentes densidades de siembra, resulta obvio que no es pertinente usar el número de plantas por parcela como covariable, pues se estaría tratando de corregir un efecto que tiene que ver con los tratamientos mismos.

En un estudio realizado por Torres et al. (2012), se evaluó el daño causado por el insecto Monalonion velezangeli en diferentes estructuras de aguacate: vegetativas, flores y frutos. En dicho estudio se pretendía averiguar si había preferencia del insecto por alguna de las estructuras consideradas. Al no tratarse de un ensayo de laboratorio en el que se ofrecieran las diferentes estructuras al insecto en iguales cantidades, sino de un ensayo de campo en el que había ofertas diferenciales, acorde con las superficies de las estructuras, se decidió utilizar la superficie de cada estructura como covariable. Se encontró viable utilizar dicha característica como covariable, puesto que explicaba parte de las variaciones en las respuestas. La pertinencia podría cuestionarse si se tiene en cuenta que la superficie de las diferentes estructuras es una característica inherente a estas. No obstante, resulta pertinente usar la superficie de cada estructura como covariable si lo que se quiere responder es cuál es la estructura preferida por el insecto en igualdad de oferta.

En el caso ilustrado anteriormente, el haber omitido la superficie disponible de cada estructura en el modelo habría dado lugar a que esta actuara como factor de confusión, pues se habría estado comparando el daño de las estructuras utilizando unidades experimentales de diferente tamaño, con lo cual las estructuras que ofrecían una mayor superficie al insecto habrían estado en ventaja sobre las estructuras que ofrecían una superficie menor. Mediante la inclusión de la superficie disponible como covariable se logró una comparación del daño causado en las diferentes estructuras, suponiendo igualdad de oferta, lo que es equivalente a comparar el daño medio por unidad de superficie.

En resumen, el análisis de covarianza es una técnica estadística mediante la cual es posible extraer la variabilidad que una característica numérica secundaria aporta a la respuesta en un experimento, excluyéndola como posible factor de confusión y permitiendo estimar la respuesta media que los tratamientos habrían generado en igualdad de condiciones. Resulta viable utilizar como covariable cualquier característica numérica que explique parte de la variabilidad de la respuesta. La viabilidad suele evaluarse con apoyo de algún programa estadístico. En adición a la viabilidad de usar una característica como covariable, es imprescindible evaluar su pertinencia, para lo cual solamente cuenta la experiencia y el buen tino del investigador.

Finalmente, es importante responder una pregunta que a menudo se formula el investigador cuando usa análisis de covarianza: ¿Qué hacer si tras decidir sobre la pertinencia de una covariable e incluirla en el modelo, se encuentra que esta no es significativa? La respuesta se hace evidente si se tiene en cuenta que en este caso no se satisface una de las condiciones para usar una característica como covariable: la viabilidad. El hecho de que el investigador tenga motivos para pensar que una característica dada explica parte de la variabilidad de la respuesta no implica que esto sea así. El investigador cumple con proponer la covariable y con evaluar la forma en que esta podría relacionarse con la respuesta, pero es el resultado del correspondiente análisis el que indica de manera objetiva si la relación sugerida es significativa o no; si no lo es, no deberá incluirse en el modelo.

Puede sentirse cierto desasosiego al observar que la inclusión en el modelo de una covariable que conceptualmente se considera pertinente depende de los resultados que se obtengan para una muestra dada; en particular, si se considera la analogía que ha venido manejándose entre el bloqueo y el uso de covariables. Echavarría et al. (2006), en un estudio sobre los errores frecuentemente observados en trabajos de grado y tesis de los programas de la Facultad de Ciencias Agrarias de la Universidad Nacional de Colombia, Sede Medellín, reseñan como errónea la práctica de retirar el efecto de los bloques del modelo, usando información a posteriori. No obstante, la diferencia entre bloquear y usar una covariable es que el bloqueo, sin importar que haya sido adecuado o no, genera una restricción en la aleatorización, la cual debe aparecer reflejada en el modelo; esto no sucede por el hecho de evaluar la viabilidad de una covariable.


Bibliografía

Echavarría, H. G.A. Correa, J.F. Patiño, J.J. Acosta y J.A. Rueda. 2006. Evaluación de métodos estadísticos utilizados en trabajos de grado y tesis de los programas de la Facultad de Ciencias Agropecuarias, en un periodo de tres años. Revista Facultad Nacional de Agronomía Medellín 59(2): 3565-3580.         [ Links ]

Torres, L.F., G.A. Correa, J.R. Cartagena, D.A. Monsalve y M.E. Londoño. Relationship of Monalonion velezangeli Carvalho & Costa (Hemiptera: Miridae) with the phenology of avocado (Persea americana Mill., cv. Hass). Revista Facultad Nacional de Agronomía Medellín 65(2): 6665-6671.         [ Links ]