INTRODUCCIÓN
Modelos de predicción espacial como la distancia inversa, Kriging, curvatura mínima, triangulación o funciones de base radial se han utilizado para generar superficies continuas a partir de datos climáticos provenientes de un número discreto de puntos de medición (Mejía et al., 1999; Sluiter, 2009; Hengl, 2009). Estas metodologías buscan generar superficies climáticas en un área de interés a partir de las mediciones en ciertos puntos, en algunos casos integrando variables topográficas o geográficas (Agnew & Palutikof, 2000; Ninyerola et al., 2000; Marquinez et al., 2003).
Dentro de los modelos de predicción espacial es posible hablar de dos enfoques: determinístico y probabilístico. El determinístico es de carácter empírico tradicional y se encuentra ampliamente instrumentalizado en modelos mecánicos como los polígonos de Thiessen (también conocido como vecino más cercano o diagramas de Voronói), red de triángulos irregulares (TIN por sus siglas en inglés), distancia inversa ponderada (IDW por su sigla en inglés), funciones polinomiales (Spline) o de regresión lineal y redes neuronales (Sluiter, 2009; Hengl, 2009).
Los modelos determinísticos suelen tener desventajas frente a los probabilísticos de tipo geoestadístico (como el Kriging), en especial porque no incluyen los errores de los valores esperados (Giraldo, 2000). Sin embargo, su simplicidad los hace útiles y en algunos casos con rendimiento tan bueno o mejor que los estocásticos (Hengl, 2009; Rauthe et al., 2013). En general, existe controversia respecto al mejor método para generar superficies climáticas a partir de un conjunto limitado de puntos de observación (Bustamante, 2003), razón por la que la elección del método debe ser cuidadosa (Montoya et al., 2000). Se deben analizar las variantes de los métodos, la distribución espacial de las observaciones, las características del área de estudio, así como la naturaleza y resolución temporal y espacial de la variable climática que se desea interpolar (Montoya et al., 2000). Por ejemplo, la precipitación en las regiones Andina y Caribe de Colombia es modulada temporalmente por la Zona de Confluencia Intertropical (ZCIT), pero factores orográficos como la elevación y orientación de las pendientes determinan la circulación de los vientos, formación de nubes y finalmente la distribución espacial de las lluvias (Mesa et al., 1997).
Se han utilizado diferentes aproximaciones para generar superficies climáticas continuas en Colombia. Saavedra e Izquierdo (1993), citados por Montoya et al. (2000), usaron los métodos Spline y Kriging, respectivamente, para interpolar totales anuales de precipitación. Mejía et al. (1999) aplicaron con deriva externa para la precipitación media anual y Kriging ordinario para la escala media mensual. Montoya et al. (2000) emplearon el método de Gandin, una extensión del método de aproximación polinomial propuesto por Cressman (1959) para la precipitación. El Instituto de Hidrología, Meteorología y Estudios Ambientales -Ideam (2005), representó en su atlas climatológico isolíneas o isoregiones de las principales variables climáticas usando el método IDW, desarrollado inicialmente por Shepard (1968).
El modelo de lluvia regionalizada, Regnie, es un modelo determinístico, desarrollado a partir de estudios de la influencia de la topografía en la hidrología e hidrometeorología (Rauthe et al., 2013), utilizado por el Servicio Meteorológico (Abteilung Hydrometeorologie, 2013) y la comunidad climatológica e hidrológica en Alemania (Schwitalla et al., 2008; Grasselt et al., 2008; Photiadou et al., 2011; Bellprat et al., 2012; Kotlarski et al., 2012; Berg et al., 2013). El modelo Regnie es una combinación entre un modelo de regresión lineal múltiple y el IDW (Buishand et al., 2008). Se basa esencialmente en usar datos puntuales de variables climáticas como precipitación o temperatura con su respectiva ubicación geográfica (latitud-longitud) y datos fisiográficos de estas ubicaciones como la elevación, la pendiente y la exposición del terreno, para calcular cocientes con una regresión lineal múltiple (RLM), que son multiplicados por los coeficientes de la regresión para obtener espacialmente la variable climática en una región deseada (Soenario et al., 2010). Regnie es considerado de carácter global porque recurre a información externa (v. gr. modelos digitales de elevación ), y crea modelos de dependencia entre los datos climáticos analizados (Saz et al., 2010).
El propósito de este trabajo fue aplicar y evaluar el modelo Regnie para establecer si se ajusta a las condiciones geográficas y climáticas de Colombia, comparándolo con otros métodos determinísticos como IDW o Spline; así mismo, identificar las ventajas y desventajas de su aplicación y determinar la viabilidad de su utilización en el mapeo y estudios de caracterización climática en el país. La implementación de este método es viable y promete buenos resultados, dado que en la actualidad es posible generar superficies fisiográficas de elementos de fácil acceso, como aquellos derivados de los MDE, que pueden ser utilizados para mejorar la generación de superficies climáticas, pues estos elementos tienen influencia directa en la distribución espacial de variables climáticas en regiones montañosas.
La importancia del estudio radica en la obtención de datos e información climática con mayor resolución espacial y precisión, con la cual se podría generar información para aquellas áreas en las que no se dispone de registros climáticos y se puede mejorar el conocimiento de patrones espaciales de comportamiento de los elementos climáticos en el país.
MATERIALES Y MÉTODOS
Área de estudio
El área de estudio utilizada corresponde a los departamentos de las regiones Andina, Pacífica y Caribe de Colombia, con un área de 481 312 km2 (figura 1). Se utilizó el promedio multianual para el periodo 1980-2011 de 1440 estaciones con datos de lluvias y 258 estaciones con datos de temperatura media del aire. Estos promedios fueron construidos con las series históricas mensuales de las estaciones disponibles dentro del área de estudio que aprobaron controles de calidad, incluyeron filtros gruesos, coherencia estadística y espacial, además que hayan sido sometidas a la generación de datos faltantes mediante el método de las proporciones (Guijarro, 2014) y a pruebas de homogeneidad como el test SNHT (Standard Normal Homogeneity Test; Alexandersson, 1986) y el test de McCuen (McCuen, 1998).
Materiales y equipos
Los materiales y equipos empleados en el trabajo fueron los siguientes (tabla 1).
Métodos
Se siguió el modelo Regnie descrito por Rauthe et al. (2013), que incluyó dos etapas: primero, el cálculo de las variables geográficas-fisiográficas y, segundo, el cálculo espacial de la precipitación y temperatura media del aire.
Cálculo de las variables geográficas-fisiográficas
El cálculo de estas variables se fundamenta en una RLM (ecuación 1).
Donde,
Yi=variable de un objeto en la estación i.
aik= coeficiente de regresión en la ecuación i para la variable k.
xik= k variables en la estación i con x..=1.
£i = proporción aleatoria de yi o residuo.
Las cinco variables (k) determinadas por factores geográficos y fisiográficos son:
Latitud y longitud (m).
Elevación (m).
Pendiente y exposición del terreno en el punto de la estación (°).
Se generaron las derivadas primarias del MDE de 30 metros, que corresponden a la pendiente y exposición; así como los continuos de latitud y longitud para las 1440 estaciones con datos de precipitación y 258 con datos de temperatura media del aire. Tras lo anterior, se obtuvieron las cinco variables necesarias para la RLM en el caso de precipitación (latitud, longitud, elevación, pendiente y exposición del terreno) y las tres para la temperatura media (latitud, longitud y elevación), representando cada una un ráster o superficie que hizo parte del cálculo de la ecuación de regresión lineal resultante.
La pendiente y exposición del terreno, variables consideradas parámetros morfométricos o primarios del terreno, fueron derivadas del MDE, del cual también se obtuvo la altitud (Hengl et al., 2003; Hengl & Reuter, 2008). La pendiente indicó la relación de cambio en elevación en una dirección XY. La exposición del terreno hizo referencia a la dirección o ángulo azimutal de la inclinación de la pendiente (Hengl et al., 2003).
Posteriormente, se calcularon de forma puntual los valores de latitud, longitud, elevación, pendiente y exposición del terreno para cada estación analizada, con el fin de generar el modelo de RLM para precipitación y temperatura media utilizando el programa R. Se aplicó la técnica de mínimos cuadrados al modelo de RLM para obtener los coeficientes de regresión y con ellos se calcularon los residuos mediante la ecuación 1. Los estadísticos de la RLM que permitieron valorar el modelo fueron el coeficiente de determinación (R2), con rango entre 0 y 1 (1 indica una correlación perfecta de la muestra) y el estadístico F, que indica si la relación observada entre las variables dependientes y la independiente es producto del azar. Para completar el cálculo, los residuos de la RLM fueron interpolados de forma ponderada (IDW) con la ecuación 2:
Donde,
zi=valor interpolado para el ráster (vacío) i
zk=residuo para el ráster (lleno) k
dki=distancia entre los puntos centrales del ráster k e i.
n=número de estaciones cercanas que se utilizarán en la interpolación.
Se realizó la interpolación del residuo de cada estación de forma ponderada, tal como se expresó en la ecuación 2.
Cálculo de la precipitación y temperatura media del aire
Se procedió a obtener la superficie de precipitación mediante la multiplicación de los coeficientes de la RLM con las cinco variables geográficas-fisiográficas en formato ráster y adicionando el residuo, tal como lo expresa la ecuación 1. Para este proceso se desarrolló un script en lenguaje R (anexo 1), que utiliza los paquetes mencionados en la tabla 1. Se repitió el proceso para la temperatura media del aire incorporando los coeficientes de regresión, las variables del terreno mencionadas y el residuo respectivo.
Evaluación de la calidad de la predicción del modelo Regnie
La evaluación de la calidad de las interpolaciones se realizó mediante la comparación entre datos estimados de precipitación o temperatura con el modelo Regnie y datos de puntos de validación en 160 estaciones de precipitación y 29 de temperatura media del aire, elegidos aleatoriamente. Con el objetivo de comparar este modelo con otros métodos convencionales, se emplearon los modelos mecánicos IDW y Spline regularizado, aplicados con los mismos datos utilizados para el modelo Regnie. Tras la interpolación, se compararon los diferentes métodos mediante técnicas de proximidad del dato interpolado (Sluiter, 2009), y se calcularon estadísticos de prueba como el error medio (EM) y el error medio absoluto (EMA), cuyos valores óptimos son 0; la raíz cuadrada del error medio cuadrático de la predicción (RMSE) o su valor estandarizado (RMNSE), cuyos valores óptimos son la desviación estándar y 1 respectivamente (Hengl, 2009; Saz et al., 2010). También se calculó el coeficiente de determinación (R2), cuyo ajuste perfecto es igual a 1 (Vargas et al., 2015), y se construyeron diagramas de dispersión entre los promedios de las estaciones y los generados con los modelos de interpolación para comparar y evaluar su distribución. El esquema metodológico seguido para la aplicación del modelo de predicción Regnie se resume en la figura 2.
RESULTADOS
La regresión lineal múltiple de la precipitación anual PPTanual obtenida mediante el modelo Regnie se presenta en la ecuación 3:
Donde:
La RLM para precipitación, obtenida mediante la técnica de mínimos cuadrados, obtuvo un coeficiente de determinación de 0.2 y un valor F de 84.7. Según los coeficientes de la ecuación, las variaciones espaciales de la precipitación fueron mejor explicadas por aspectos fisiográficos, particularmente la pendiente, que por la ubicación geográfica. Del mismo modo, se resaltan las relaciones negativas observadas con la elevación y la exposición, mientras se encontró una relación positiva con la pendiente. El valor F indicó que el resultado de la regresión no fue producto del azar. Indicadores generales de los datos utilizados y los resultados obtenidos mediante las interpolaciones se encuentran en la tabla 2. Los valores medios y las desviaciones estándar de los tres modelos de interpolación de la precipitación fueron mayores que los estadísticos calculados con los datos de las estaciones utilizadas (tabla 2).
La regresión lineal múltiple obtenida para la temperatura media del aire TMEDanual se expresa en la ecuación 4:
Donde:
El modelo de temperatura media obtuvo un coeficiente de determinación de 0.94 y un valor F de 1192, lo que señala que el resultado de la regresión tampoco fue aleatorio, dado que el valor crítico según la tabla de distribución F de Fisher al 95 % de probabilidad con g.l. v1 = 3 y g.l v2 = 254 es de 2.64. Por lo tanto, es extremadamente improbable que un valor F tan elevado se produjera por azar. El valor medio de los datos utilizados para la temperatura fue cercano al calculado con los modelos de interpolación; mientras la desviación estándar fue similar en solo el modelo Regnie, mientras fue menor y mayor en los modelos IDW y Spline, respectivamente (tabla 3).
Las superficies interpoladas de precipitación y temperatura se presentan en la figura 3 y figura 4.
Los estadísticos de prueba de las interpolaciones muestran, como era de esperarse por la naturaleza y variabilidad de las variables interpoladas, errores mucho mayores para la precipitación que para la temperatura (tabla 4).
Comparaciones entre los datos de las estaciones de prueba y los modelos de interpolación se muestran en los diagramas de dispersión para la precipitación (figura 5a, figura 5b y figura 5c) y la temperatura media del aire (figura 5d, figura 5e y figura 5f).
DISCUSIÓN
El modelo Regnie mostró el mejor desempeño para la interpolación de la precipitación según los estadísticos RMSE y RMSNE, mientras el IDW fue mejor según el EM y EMA. Los peores estadísticos de prueba los mostró el modelo Spline, excepto en el coeficiente de determinación R2, que por ser mayor que 1 no fue posible su comparación con los demás modelos. Como se observó con los estadísticos de tendencia central, y de acuerdo con lo reportado por Olaya (2011), Spline crea superficies espaciales que pueden alcanzar valores fuera del rango definido por los puntos de entrada, presentándose oscilaciones artificiales significativas.
El coeficiente de determinación de la RLM de 0.2, entre las variables geográficas, fisiográficas y la precipitación, es un indicador de baja relación lineal entre estas variables y la lluvia a escala anual. A pesar de esto, la calidad de la predicción arrojó estadísticos de prueba de la superficie derivada del modelo aceptables (R2 = 0.81, EM = 55.63, EMA = 336.53 y RMSE = 0.50), contrastando datos estimados y datos de puntos de validación elegidos aleatoriamente. Además, se reconocen detalles no percibidos en las superficies generadas por IDW o Spline, especialmente en las zonas de alta montaña (v. gr. valles interandinos y el complejo montañoso aislado del norte de Colombia que corresponde a la sierra Nevada de Santa Marta). De lo anterior se puede afirmar que, tras la incorporación de aspectos fisiográficos, la interpolación mejoró su detalle espacial, debido a que el cálculo de la RLM se realizó independiente en cada pixel del MDE de entrada (30 x 30 metros) y luego fue re-escalado a una resolución de pixel de 1000 x 1000 metros, inferior a la distancia real entre estaciones, que se utiliza como referencia para definir la resolución o detalle espacial en los modelos IDW y Spline.
Los estadísticos de prueba de la temperatura media del aire mostraron que el método Regnie presentó mejores resultados que los otros dos métodos implementados, resultado acorde con Bustamante (2003), quien afirmó que un modelo relativamente simple de interpolación lineal de la elevación, latitud y longitud produce resultados bastante satisfactorios para la interpolación de la temperatura (entre 80-90 % de la varianza explicada). La RLM mostró un alto coeficiente de determinación (0.94), lo que confirma la relación inversa entre la temperatura y la altitud explicada por el gradiente adiabático (Jones, 1996, citado por Hartkamp et al., 1999; Cuadrat & Vicente, 2008).
Ante los resultados obtenidos, podría surgir la pregunta: ¿por qué no utilizar los métodos estocásticos en lugar de los mecánicos o determinísticos evaluados, dado que los primeros generan superficies de incertidumbre o error que describen la calidad de la predicción (Hartkamp et al., 1999)? La respuesta radica en qué a pesar de sus ventajas y de ser considerados métodos de interpolación óptima (Kolmogorov, 1941; Gandin, 1963; citados por Montoya et al., 2000), es necesario conocer a profundidad el comportamiento espacial del fenómeno representado, especialmente en aspectos como la estacionariedad, la independencia espacial y la isotropía (Hartkamp et al., 1999). Por otra parte, de acuerdo con lo citado por Hewitson & Crane (2005) y Hofstra et al. (2008), la densidad de estaciones, las características propias de la variable a interpolar o la complejidad orográfica conduce a una mayor sensibilidad en los resultados que la elección del método de interpolación, por lo que no necesariamente un método estocástico genera mejoras en las superficies interpoladas (Dirks et al., 2008; Wagner et al., 2012).
Un aspecto fundamental para mejorar la precisión de los modelos es aumentar la disponibilidad de datos de entrada, lo cual, ante la baja densidad de estaciones climáticas de superficie en el área de estudio (0.003 estaciones/km2 para precipitación y 0.0005 estaciones/km2 para temperatura). Esto puede realizarse utilizando información de satélites meteorológicos como el TRMM (Tropical Rainfall Measuring Mission), que terminó su operación en 2015, y los del programa Imerg (ambos de la Nasa), Meteosat de la ESA (Agencia Espacial Europea), datos de re-análisis como ERA-interim, NCEP/NCAR, Merra y otras fuentes de información climática disponibles, cuyos datos históricos de lluvia para la zona de estudio permiten la creación de estaciones virtuales que densifican la disponibilidad actual de información para la aplicación del modelo y permitirían mejorar su precisión. Se espera que en los próximos años la gran base de datos TRMM y las de nuevos sensores como el GPM Core Observatory (parte del Imerg) estarán disponibles para la creación de estaciones virtuales.
CONCLUSIONES
Los modelos propuestos para precipitación y temperatura media del aire son una primera aproximación a la aplicación de interpolaciones que incorporan variables geográficas y fisiográficas para Colombia a través de una Regresión Lineal Múltiple (RLM), utilizando los promedios de las estaciones disponibles (1440 para precipitación y 258 para temperatura del aire) en las regiones Andina, Caribe y Pacífica.
Se comprobó que la incorporación del MDE y sus derivadas (elevación, pendiente, exposición) en el modelo Regnie mejoraron la precisión y resolución espacial de las interpolaciones, principalmente de temperatura, que obtuvo un coeficiente de determinación de la RLM de 0.94 y menores valores de los errores estadísticos que los modelos comparados IDW y Spline. Este efecto, también observado en los diagramas de dispersión, se explica por la relación inversa entre la temperatura y la altitud debida al gradiente adiabático o variación de temperatura que experimentan las masas de aire en movimiento vertical. Si bien este efecto no se observó tan claramente en los estadísticos de las interpolaciones de precipitación (coeficiente de determinación de la RLM de 0.2), por la alta variabilidad de los datos y la naturaleza de los estadísticos de evaluación, se observó que las interpolaciones con el modelo Regnie presentaron mayor detalle asociado con la resolución espacial introducida por el MDE (tamaño de pixel de 30 x 30 m.).
Según las medidas de tendencia central y los estadísticos analizados a las superficies interpoladas, el modelo Regnie permitió la generación de superficies espaciales de precipitación y temperatura media multianual del área de análisis más ajustadas a la realidad (R2 = 0.81 y R2 = 0.99, respectivamente) y con mayor detalle espacial, en comparación con los métodos de interpolación IDW y SPLINE. Lo anterior, debido a que el cálculo de la RLM se realizó independiente en cada pixel del MDE de entrada (30 x 30 metros) y luego fue re-escalado a una resolución de pixel de 1000 x 1000 metros, inferior a la distancia real entre estaciones, que se utiliza como referencia para definir la resolución o detalle espacial en los modelos IDW y Spline.
El modelo Regnie puede ser utilizado por institutos y centros de investigación, academia, entidades públicas y el sector privado para interpolar variables climáticas en estudios de investigación o de índole sectorial, logrando mayor resolución (MDE) y precisión en la explicación de los fenómenos formadores de lluvias y su distribución, así como la variación de la temperatura con la altitud. Por ello, es una interesante apuesta para mejorar los procesos y generación de productos e insumos en pronósticos meteorológicos y, dado que el cálculo del modelo se realiza pixel a pixel, se puede utilizar en combinación con otros modelos espaciales para el cálculo de variables como, por ejemplo, la evapotranspiración del cultivo de referencia o balances hídricos agrícolas, útiles en la determinación de la ganancia en biomasa y productividad de cultivos agrícolas.
Sin embargo, aunque el modelo Regnie presenta mejoras significativas en los resultados de interpolación de precipitación y temperatura media del aire (R2 = 0.81 y R2 = 0.99, respectivamente), las complejas condiciones orográficas, fisiográficas y la ubicación ecuatorial del área de estudio hacen necesario incorporar en posteriores investigaciones y con el fin de hacer más preciso el modelo; variables como: continentalidad (entendida como la distancia a los océanos Pacífico y Caribe), distancia a máximos regionales de lluvias o estacionalidad (temporadas secas y lluviosas), los cuales son predictores que influyen en la formación de las lluvias y su distribución espacio-temporal.
Finalmente, dado que los procesos atmosféricos generadores de lluvias son diferentes en cada región comprendida por el estudio (Andina, Pacífica y Caribe), en futuros trabajos se sugiere implementar procesos de interpolación independientes para cada región que permitan refinar los resultados y disminuir la variabilidad de los datos de entrada del modelo.