SciELO - Scientific Electronic Library Online

 
 issue73A reference ontology for harmonizing process- reference modelsState estimation technique for a planetary robotic rover author indexsubject indexarticles search
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • On index processCited by Google
  • Have no similar articlesSimilars in SciELO
  • On index processSimilars in Google

Share


Revista Facultad de Ingeniería Universidad de Antioquia

Print version ISSN 0120-6230

Rev.fac.ing.univ. Antioquia  no.73 Medellín Oct./Dec. 2014

 

ARTÍCULO ORIGINAL

 

Clasificación digital de masas nubosas a partir de imágenes meteorológicas usando algoritmos de aprendizaje de máquina Digital

 

classification of cloud masses from weather imagery using machine learning algorithms

 

 

Salomón Einstein Ramírez-Fernández1*, Iván Alberto Lizarazo-Salcedo2

1Proyecto Curricular Maestría en Ciencias de la Información y las Comunicaciones énfasis en Geomática, Grupo de Investigación NIDE, Facultad de Ingeniería, Universidad Distrital Francisco José de Caldas. Carrera 7 N.° 40-53. C.P. 110231. Bogotá, Colombia.

2Proyecto Curricular Ingeniería Catastral y Geodesia, Grupo de Investigación NIDE, Facultad de Ingeniería, Universidad Distrital Francisco José de Caldas. Carrera 7 N.° 40-53. C.P. 110231. Bogotá, Colombia.

*Corresponding author: Salomón Einstein Ramírez Fernández, e-mail: seramirezf@correo.udistrital.edu.co

 

(Recibido el 27 de octubre de 2013. Aceptado el 22 de junio de 2014)

 

 


Resumen

La identificación exacta de nubes precipitantes es una tarea difícil. En el presente trabajo se aplicaron los algoritmos Máquinas de Soporte Vectorial, Árboles de Decisión y Bosques Aleatorios para discriminar entre nubes precipitantes y nubes no precipitantes, a partir de una imagen meteorológica del satélite GOES-13 que cubre el territorio colombiano. El objetivo del trabajo fue evaluar el desempeño de los algoritmos de aprendizaje de máquina (ML), para la clasificación digital de masas nubosas, en términos de la exactitud temática de la clasificación usando como referencia el algoritmo convencional distancia de Mahalanobis. Los resultados muestran que los algoritmos ML proporcionan una clasificación de masas de nubes más exacta que la obtenida por algoritmos convencionales. La mejor exactitud fue obtenida usando Bosques Aleatorios (RF), con una exactitud temática global de 97%. Adicionalmente, la clasificación obtenida con RF fue comparada pixel a pixel con estimaciones de precipitación de la NASA Tropical Rainfall Measurement Mission (TRMM) obteniendo una exactitud global del 94%. De acuerdo con este estudio, los algoritmos ML pueden ser usados para mejorar los actuales métodos de identificación de nubes precipitantes.

Palabras Clave:Clasificación de masas nubosas, algoritmos de aprendizaje de máquina, imágenes meteorológicas, árboles de decisión, máquinas de soporte vectorial, bosques aleatorios


Abstract

Accurate identification of precipitating clouds is a challenging task. In the present work, Support Vector Machines, Decisión Trees and Random Forests algorithms were applied to discrimínate between precipitating clouds and non-precipitating clouds from a satellite weather image GOES- 13 covering the Colombian territory. The objective of this study was to evaluate the performance of machine learning (ML) algorithms for digital classification of cloud masses in terms of thematic accuracy classification using the conventional Mahalanobis algorithm as benchmark. Results show that ML algorithms provide more accurate classification of cloud masses than conventional algorithms. The best accuracy was obtained using Random Forests (RF), with an overall thematic accuracy of 97%. Furthermore, the classification obtained with the RF algorithm was compared pixel-to-pixel with NASA Tropical Rainfall Measurement Mission (TRMM) rainfall estimates, obtaining an overall accuracy of 94%. ML algorithms can therefore be used to improve current precipitating clouds identification methods.

Keywords:cloud mass classification, machine learning algorithms, weather images, decision trees, support vector machines, random forests


 

Introducción

El análisis de nubes proporciona información que es vital para la detección, comprensión y pronóstico de las tendencias meteorológicas y de los cambios ambientales [1], siendo su identificación y clasificación a partir de imágenes meteorológicas necesaria para extraer información acerca de su aparición y tipos [2, 3]. Dichos aspectos son fundamentales en muchas aplicaciones meteorológicas, como el pronóstico del tiempo desde el espacio, el cual es realizado a partir de técnicas basadas en la evaluación y el seguimiento de masas de nubes [4-6].

Al respecto, el primer paso en el problema de medición de la precipitación desde el espacio es la discriminación entre las áreas que precipitan y la áreas que no precipitan [7], por lo tanto antes de intentar estimar la cantidad de lluvia que cae de una nube particular, vista desde un sensor de satélite, primero se debe asegurar de que la nube es, en efecto precipitante [8].

En la mayoría de usos operacionales de imágenes meteorológicas, la clasificación de nubes se realiza mediante interpretación visual (nefoanálisis) en imágenes del visible e infrarrojo [9], cuyas tonalidades de grises permiten reconocer detalles inherentes a la estructura de la nube. Sin embargo, este proceso requiere muchos años experiencia práctica [10]. Por lo tanto el empleo de métodos de clasificación digital que emplean algoritmos de aprendizaje automático basados en la teoría estadística, puede resultar muy útil para clasificar masas nubosas sobre imágenes meteorológicas.

Existen trabajos previos de utilización de imágenes meteorológicas para clasificar digitalmente los diferentes tipos de nubes, mediante la aplicación de distintos métodos y técnicas de acuerdo al propósito de la investigación [6, 9]. Algunos de ellos reportan el uso de algoritmos de aprendizaje de máquina tales como Redes Neuronales Artificiales y Máquinas de Soporte Vectorial [1, 2], entre otros.

El propósito de este trabajo es comparar el desempeño ofrecido por los algoritmos Máquinas de Soporte Vectorial, Árboles de Decisión y Bosques Aleatorios con respecto al algoritmo convencional de clasificación digital denominado Distancia de Mahalanobis, que se caracteriza por ser un método estadístico paramétrico. La comparación entre ellos se realiza en función de la exactitud temática obtenida de su aplicación en la clasificación de masas nubosas sobre imágenes meteorológicas para delimitar áreas de lluvia y no lluvia.

 

Datos y métodos

Datos

Se utilizó una subescena de imagen meteorológica del Satélite Geoestacionario Operacional Ambiental GOES-13 (por sus siglas en inglés), también conocido como GOES-Este, el cual se encuentra ubicado a 75° de longitud W sobre el río Amazonas, a una altura de 36.000 Km sobre la superficie terrestre, obteniendo imágenes de la atmósfera cada 30 minutos. La imagen abarca las regiones del espectro electromagnético comprendidas entre el visible e infrarrojo (VIS e IR, por sus siglas en inglés respectivamente), con 5 espectros diferentes, uno VIS, uno de vapor de agua (WV, por sus siglas en inglés) y tres IR, con resoluciones espaciales de 1 km, 8 km y 4 km respectivamente [11,12] y profundidad de 8 bits (Modo-A), ver tabla 1. La imagen fue tomada el 03 abril de 2013 a las 21:15 horas de Tiempo Universal Coordinado (UTC, del inglés Universal Time Coordinated), con 2240 x 2260 pixeles en su mayor resolución espacial, cubriendo la extensión de la Tierra comprendida desde los -84,81° de longitud W y los -5,21° de latitud S, hasta los -64,5° de longitud W y 14,92°de latitud N.

El canal visible es útil para el análisis de nubosidad, contaminación, detección de humo y tormentas (Figura 1a). El canal infrarrojo cercano es empleado para la identificación de niebla en la noche, permite diferenciar nubes de agua, hielo y nieve durante el día, identificación de incendios, volcanes y temperatura de la Superficie del mar en el día (Figura 1b). El canal de vapor de agua es usado para la identificación de contenido y advección de humedad en niveles medios y movimiento atmosférico de niveles medios/ altos (Figura 1c)). El canal infrarrojo térmico es aplicado para la identificación de movimiento y nubosidad, identificación de tormentas severas y lluvia intensa (Figura 1d)). El canal de absorción es destinado a la determinación de características de la nube, como presión en el tope de la nube (Figura 1e)).

Adicionalmente, para realizar una evaluación complementaria de los resultados obtenidos, se empleó un conjunto de datos de NASA-TRMM (en inglés, Tropical Rainfall Measuring Mission), correspondientes al producto 3B42, que utiliza una combinación de infrarrojo térmico y microondas pasiva y provee datos de precipitación cada tres horas, expresados en mm/hr, para todas las longitudes de la tierra comprendidas entre los 50° de latitud N y los 50° de latitud S, en una grilla con resolución espacial de 30 km. Este conjunto de datos corresponde al 03 abril de 2013 a las 21:00 horas UTC (ver Figura 1f)).

La extensión cubierta por la imagen corresponde a una zona tropical de latitudes ecuatoriales con predominancia del territorio colombiano. Colombia tiene una amplia variedad de climas y microclimas, que van desde los más calurosos a 30° en las costas y llanuras hasta los más fríos, con temperaturas bajo 0° en los picos de las montañas de la Cordillera de los Andes y la Sierra Nevada de Santa Marta [13].

Métodos

El estudio fue abordado mediante el desarrollo de 5 fases metodológicas, las cuales son presentadas en la figura 2), y se describen a continuación:

En la primera fase, se realizó el preprocesamiento de la imagen, que incluyó: (i) lectura de cada banda que conforma la imagen, (ii) asignación de referencia espacial MAGNA-SIRGAS, (iii) remuestreo del tamaño de los pixeles de las bandas 2, 3, 4 y 5, al tamaño del pixel de la banda 1 (1 km) usando el método bilineal, (iv) recorte de la extensión geográfica cubierta por las bandas 2, 3, 4 y 5 (-88,23243 W, -9,14484 S, -51,58121 E, 18,34358 N), a la extensión geográfica cubierta por la banda 1 (-84.80536 W, -64,50346 E, -5,205731 S, 14,91651 N), y (v) agrupación de todas las bandas en una sola imagen .

Durante la segunda fase se definieron las clases de interés, adoptando la leyenda de clasificación propuesta en [14,15] según la cual el número de picos en una distribución de frecuencia en el dominio VIS/IR permite discriminar entre la lluvia y no lluvia. Los picos que corresponden a nubes que precipitan tienden a agruparse en una región bien definida y son asignados a tres clases principales: Cielo despejado (Cd), Nubes que no precipitan (Nn) y Nubes que precipitan (Np). A partir de esta leyenda, se realizó la delimitación de las clases de referencia para entrenamiento y validación, mediante la interpretación visual de las bandas 1 y 4, obteniendo así los polígonos de muestreo, que son mostrados en la figura 3), con sus respectivas etiquetas de clases asociadas.

La tercera fase, consistió en realizar el muestreo de clases existentes en la imagen tanto para entrenamiento como para validación. En el primer caso se siguió el criterio que sugiere que el número mínimo de datos de pixeles por clase debe ser 30 veces el número de bandas [16], por tanto se definió un tamaño de 450 muestras de entrenamiento. Para el segundo caso, se asumió como criterio, emplear el doble del número de muestras de entrenamiento, buscando garantizar que las muestras de validación fueran lo suficientemente representativas, por tanto se definió un tamaño de 900 muestras de validación. Una vez definido el tamaño total de la muestra (1.350), se realizó la localización aleatoria de la muestra de entrenamiento y la muestra de validación y se obtuvieron las clases existentes en los sitios de muestreo y la respuesta espectral del modelo.

En la cuarta fase, se realizó la clasificación de la imagen aplicando cuatro clasificadores distintos, el algoritmo paramétrico Distancia de Mahalanobis (DM) y los algoritmos no paramétricos Máquinas de Soporte Vectorial (SVM), Árboles de Decisión (DT) y Bosques Aleatorios (RF) [16-20].

El algoritmo DM es un clasificador de máxima probabilidad, que mide la separación espectral de dos grupos de objetos, basándose en las correlaciones existentes entre ellos. La distancia de Mahalanobis entre un pixel x = (x1, x2,.. ,,xn)T y una clase de valores con media muestral μ = (μ1, μ2,.. .,μn)t está dada por la ecuación 1.

Al respecto, para cada una de las clases definidas se obtuvo la respuesta del modelo, luego se calculó el valor medio de clase (μ) y la respectiva matriz de covarianza (COV) en cada caso. Finalmente a cada pixel de la imagen se le asignó aquella clase cuyo centro de clase (μ) estaba más cerca de dicho pixel en términos de la distancia Mahalanobis.

El método SVM es una alternativa de clasificación de imágenes, que permite obtener clasificaciones exactas a partir de muestras de entrenamiento reducidas [5, 21].

El principal atractivo de SVM es su capacidad de minimizar los errores de clasificación, creando un hiperplano entre cada par de clases, de tal manera que maximiza la distancia entre los vectores de soporte de cada clase [1,2,16]. Si no es posible construir ese hiperplano en el espacio espectral original, la separación se realiza en un espacio espectral de dimensión más alta [5]. Para efectos prácticos se acostumbra a emplea una función de mapeo no lineal denominada kernel, seleccionada entre las Funciones Polinomiales, las Funciones de Base Radial, las Funciones de Bases Radial Gausianas y las Funciones Sigmoidales [16].

En este estudio se aplicó el kernel (K) de Función de Base Radial (RBF, en inglés) dado por la ecuación 2 [2], donde las parejas (xi, xj) representan el conjunto de datos de entrenamiento, siendo xi. los vectores que contienen la respuesta multiespectral de los objetos observados y xj. las etiquetas de clase asociadas a los mismos. Este kernel requiere dos parámetros, el denominado costo (C), que penaliza el error de clasificación [5] y el parámetro kernel (γ), que define el grado de influencia que tiene cada muestra de entrenamiento [1]. La selección de parámetros óptimos se realizó automáticamente mediante el uso de una grilla de búsqueda, considerando un espacio (C y γ) con C=22:6 y y=-4:4 [22]. El modelo óptimo obtenido corresponde a los valores de C=64 y γ=4.

El algoritmo DT es una técnica que construye una serie de reglas, basadas en los valores de los atributos de una muestra de entrenamiento, para asignar una clase a cada uno de los objetos de interés, mediante una función objetivo, la cual es conocida informalmente como un modelo de clasificación [18]. Este modelo sirve como herramienta explicativa para distinguir entre objetos de diferentes clases. En este estudio, el algoritmo DT permitió obtener el árbol de reglas presentado en Figura 4), donde se indica el porcentaje de la muestra de entrenamiento que fue asignado a cada clase, el árbol exhibe una estructura muy simple, obteniendo únicamente dos particiones. Este árbol, fue obtenido usando la medida de impureza Gini [18], seleccionando las bandas IR térmico y WV como las que brindan la mayor ganancia de información. La banda IR permite discriminar entre cielo despejado (Cd) y nubes (N), hecho que está asociado a que las nubes son los objetos más fríos en esta banda [23], y la discriminación entre las nubes que no precipitan (Nn) y las nubes que precipitan (Np), está asociada a las altas concentraciones de gotículas presentes en estas últimas [24].

El algoritmo RF es una técnica de clasificación que se basa en la agregación de un gran número de árboles de decisión [20]. Considerando el gran tamaño de predictores (5.062.400), el número de árboles a emplear para la clasificación se eligió siguiendo el criterio de prueba y parada [20], en este sentido se probaron valores en el rango de 5.000 a 50.000 avanzando a intervalos de 5.000 y se observó estabilización alrededor de 20.000. En la figura 5), es posible observar el aporte que brinda cada banda en función de las medidas de interés denominadas Disminución Media de Exactitud y Disminución Media de Gini. Se evidencia que en el primer caso existe coincidencia entre las bandas elegidas por este método y las bandas elegidas por método anterior (IRT, WV).

En la quinta y última fase, se realizó la evaluación de exactitud temática de la clasificación obtenida utilizando la matriz de confusión entre la respuesta obtenida por cada modelo y la respectiva respuesta de validación. Posteriormente se calculó la exactitud global (PCC) y el coeficiente Kappa (κ) en cada caso. También, se calculó el intervalo de confianza (IC) para cada caso, a un nivel de significancia α=5%, empleando la ecuación 3, donde se tiene que PCC es la exactitud global, N es el tamaño de la muestra de validación y Z el nivel de confiabilidad [18].

Adicionalmente, bajo la consideración de que la anterior evaluación realizada para las clasificaciones obtenidas mediante los diferentes algoritmos predictores, ante los ojos de un experto puede ser considerada como incompleta, se realizó una validación complementaria, con respecto a las estimaciones de precipitación de TRMM, para el algoritmo RF por ser el que exhibió un mejor resultado en la clasificación.

Para ello, se realizó el remuestreo del tamaño del pixel del conjunto de datos de TRMM (30 km) al tamaño de pixel de la mejor clasificación (1 km), mediante el método bilineal. Una vez remuestrados, los datos TRMM fueron recortados a la extensión cubierta por el producto de la clasificación, por ser esté de menor extensión. Posteriormente para efectos prácticos, se reclasificó el TRMM asignando la clase Precipitó (p) cuando el valor de sus niveles digitales fueran mayores a cero y No precipitó (np) cuando fueran iguales cero. En cuanto a la clasificación obtenida por el algoritmo RF, está también fue reclasificada, agrupando las clases Cielo despejado (Cd) y Nubes no precipitantes (Nn), bajo una única clase denominada No precipitó (np) y la clase Nubes de precipitación (Np) fue asignada a la clase Precipitó (p).

Usando la clasificación binaria obtenida se procedió a realizar una validación completa, es decir pixel a pixel, entre la mejor clasificación obtenida (pronóstico) y los datos de precipitación TRMM (realidad), siendo validados en total 5.062.400 píxeles, para los cuales se construyó su respectiva matriz de confusión. En este caso, se calcularon las medidas estadísticas sensibilidad, especificidad, precisión y exactitud; para una revisión detallada de la definición de estas medidas se remite al lector a [25,26].

 

Resultados

En términos de exactitud temática los valores globales de PCC fueron superiores o iguales al 90% para todos los algoritmos, mientras que los valores del coeficiente kappa (κ) fueron superiores o iguales al 84%, lo cual en términos prácticos resulta ser favorable.

En la tabla 2, se presenta la matriz de error obtenida para la clasificación realizada por cada uno de los métodos. Es posible observar que la clasificación obtenida para el algoritmo Distancia de Mahalanobis (DM) presenta mayor confusión o mezcla entre clases, con respecto a los otros métodos empleados, situación que es ratificada al observar las salidas gráficas de las clasificaciones obtenidas.

En la figura 6, es posible observar que la exactitud temática de la clasificación obtenida mediante el método DM, muestra que el valor más alto de PCC asociado al productor (Figura 6a), corresponde a la clase Cd seguida por las clases Np y Nn, respectivamente. Mientras que el valor más alto de PCC asociado al usuario (Figura 6b), corresponde a la clase Nn seguida por las clases Np y Cd, respectivamente. Para la clasificación obtenida mediante el método Máquinas de Soporte Vectorial (SVM), la exactitud temática muestra que el valor más alto de PCC tanto asociado al productor (Figura 6a) como al usuario (figura 6b), corresponde a la clase Cd seguida por las clases Nn y Np, respectivamente. En lo respecta a la exactitud temática obtenida para el método Árboles de Decisión (DT), como en el caso de la DM, se observa que el valor más alto de PCC asociado al seguida por las clases Np y Nn, respectivamente. Siendo el valor más alto de PCC asociado al usuario (Figura 6b), el correspondiente a la clase Cd seguida por las clases Nn y Np, respectivamente. En cuanto a la exactitud temática de la clasificación obtenida mediante el método de Bosques Aleatorios (RF), muestra que el valor más alto de PCC tanto asociado al productor (Figura 6a) como al usuario (Figura 6b), corresponde a la clase Cd. Mientras que los valores más bajos de PCC asociados al productor (Figura 6a) como al usuario (Figura 6b) corresponden a las clases Nn y Np, respectivamente.

Al observar las salidas gráficas de las clasificaciones obtenidas para cada clasificador, las cuales se presentan en la figura 7, visualmente se observa que se obtuvo un mejor resultado con los métodos no convencionales, especialmente en las regiones norte y occidental de la imagen donde se encuentran localizadas áreas asociadas a la clase Cd, la cual presenta mezclas con las demás clases, hecho que sugiere que el método DM (Figura 7a) presenta un mayor grado de dificultad para realizar la separación de las clases. A pesar de que se obtuvieron valores similares para las medidas de exactitud en los algoritmos ML, visualmente se observa que fue mejor la clasificación obtenida con la aplicación del método RF (Figura 7d).

A partir de los datos consignados en la tabla 3, es posible observar que el valor de PCC global obtenido para el algoritmo DM, sugiere que el 90% del área de la imagen fue correctamente clasificada, siendo este el valor más bajo de PCC. Al respecto, tanto para el algoritmo SVM como para el algoritmo DT, el valor de PCC global sugiere que dicha área corresponde al 96%.

Adicionalmente, se evidencia que el valor más alto de PCC global fue el obtenido para el algoritmo RF, indicando que el 97% del área de la imagen se clasificó correctamente (Figura 8). Alternativamente estos valores pueden ser interpretados como la probabilidad de que un pixel fuera clasificado correctamente.

Por otra parte, el valor del estadístico Kappa obtenido para cada clasificador fue DM=0,84; SVM=0,95; DT=0,95 y RF=0,95; evidenciando en los cuatro casos un buen grado de ajuste entre las clases predichas y las clases asumidas como reales.

A partir del intervalo de confianza calculado para cada algoritmo, se evidencia que el rango del algoritmo DM presenta una exactitud Kappa significativamente diferente a la exactitud Kappa de los algoritmos ML, con los cuales, no existe traslapo entre los rangos. Mientras que los algoritmos ML exhiben una exactitud muy similar entre sí, es decir, existe traslapo entre sus rangos.

De acuerdo con los resultados, se evidencia que el algoritmo RF presenta una mejor efectividad en la clasificación de masas nubosas. La figura 9 muestra el resultado de reclasificar binariamente tanto el algoritmo RF (Figura 9a) como las estimaciones de precipitación de TRMM (Figura 9b), en términos de Precipitó (p) y No precipitó (np), con el fin de llevar a cabo una evaluación complementaria (ver Datos y Métodos).

De manera análoga, para esta evaluación complementaria se construyó la respectiva matriz de confusión presentada en la tabla 4, a partir de la cual se obtuvieron las siguientes medidas de efectividad del clasificador: una sensibilidad del 50% siendo este porcentaje la efectividad del clasificador para determinar clases asociadas a la etiqueta precipitó (p), consideradas como reales; una especificidad del 97%, porcentaje que indica la efectividad del clasificador para determinar clases asociadas a la etiqueta no precipitó (np), consideradas como reales; una precisión del 60%, porcentaje de ajuste de las clases determinadas por el clasificador asociadas a la etiqueta precipitó (p); y una exactitud del 94% que representa la efectividad global del clasificador.

Los resultados obtenidos en el presente estudio servirán de base para la implementación de una herramienta informática que se pretende desarrollar para la extracción automática de nubes precipitantes presentes en series temporales de imágenes meteorológica.

 

Discusión

En términos generales los cuatro clasificadores aplicados en este trabajo exhiben una efectividad favorable, con respecto a la exactitud temática de la clasificación de masas nubosas, sin embargo al observar la exactitud tanto del productor como del usuario se evidencia la presencia de errores tanto por omisión como por comisión, respectivamente en cada uno de ellos.

Dichos errores sugieren que existe algún grado de dificultad por parte de los clasificadores empleados, en separar determinadas clases, teniendo una mezcla de las mismas. Al respecto, se observa que dichos errores son mayores para la discriminación entre nubes que precipitan y nubes que no precipitan.

Los clasificadores de aprendizaje de máquina exhiben resultados sobresalientes en la clasificación de masas nubosas, frente a los obtenidos para el clasificador convencional DM. Al respecto se considera, que los resultados obtenidos mediante los clasificadores no convencionales dependen en parte de la optimización o ajuste de los modelos empleados por cada uno de ellos, lo cual permite obtener resultados más confiables.

A partir de los estadísticos de exactitud calculados, se considera que el método RF presenta mejor efectividad para la clasificación de masas nubosas, lo cual es ratificado al observar visualmente el resultado de la clasificación. Sin embargo, RF presenta cierta dificultad para discriminar entre Cielo despejado y Nubes, en comparación con los otros dos métodos ML, presentando errores de omisión.

Al realizar la evaluación complementaria de los resultados RF, en términos binarios con respecto a las estimaciones de precipitación de TRMM, se obtiene una efectividad excelente, considerando el hecho de que la misma fue realizada pixel a pixel para la imagen completa.

Conclusiones

Se cumplió el objetivo principal de este trabajo, que era comparar el desempeño de algoritmos de aprendizaje de máquina en la clasificación digital de masas nubosas a partir de imágenes meteorológicas.

Los resultados obtenidos, permitieron ratificar la hipótesis de que la aplicación de métodos no convencionales permite obtener mejores resultados de clasificación que los obtenidos al aplicar métodos convencionales en la clasificación de masas nubosas.

A nivel teórico, el desarrollo de este trabajo permitió comprender la fundamentación conceptual que soporta cada uno de los métodos empleados, permitiendo adicionalmente observar la efectividad de los mismos en la clasificación de masas nubosas.

Desde el punto de vista práctico, este trabajo brinda una aproximación en la clasificación de la nubosidad para discriminar tanto nubes que precipitan como nubes que no precipitan, el cual es el paso previo en la cuantificación y pronóstico de la precipitación desde el espacio.

Se considera que en trabajos futuros, se debe evaluar el desempeño de estos métodos de aprendizaje de máquina, en la clasificación de un número mayor de clases asociadas a nubosidad, tales como derivadas de las diferentes familias de nubes. Los algoritmos ML, por lo tanto, pueden ser usados para mejorar los métodos actuales de identificación de nubes precipitantes.

La contribución de este trabajo en el campo de meteorología se resume de la siguiente manera:

• Los resultados experimentales obtenidos demuestran que el empleo de métodos de clasificación digital que se basan en algoritmos de aprendizaje supervisado, fundamentados en la teoría estadística, son muy útiles para clasificar masas nubosas sobre imágenes meteorológicas, permitiendo superar las limitaciones impuestas por la interpretación visual, que requiere de intérpretes expertos en imágenes del visible e infrarrojo.

• Adicionalmente, estos resultados demuestran que los canales más relevantes para la clasificación de masas nubosas, corresponden al IR térmico y WV, siendo estos los que brindan mayor información para en la identificación y discriminación de nubes, el primero permite discriminar entre cielo despejado y nubes, lo cual está asociado a las bajas temperaturas que exhiben las nubes y el segundo permite discriminar entre nubes que no precipitan y nubes que precipitan, lo cual está asociado a las altas concentraciones de gotículas presentes en estas últimas. Hecho que permite superar las limitaciones impuestas por la no disponibilidad de imágenes del canal visible en la noche.

Referencias

1. K. Buddhiraju, I. Rizvi. Comparison of CBF, ANNand SVM classifiers for object based classification of high resolution satellite images. Proceedings of the Geosci. Remote Sens Symp. Honolulu, USA. 2010 pp. 40-43.         [ Links ]

2. H. Chethan, R. Raghavendra, G. Kumar. Texture Based Approach for Cloud Classification Using SVM. Proceedings of the Int. Conf. Adv. Recent Technol. Commun. Comput. Kottayam, Indian. 2009. pp. 688-690.         [ Links ]

3. L. Gómez, G. Camps, L. Bruzzone, J. Calpe. ''Mean map kernel methods for semisupervised cloud classification''. Geosci. Remote Sensing, IEEE Trans. Vol. 48. 2010. pp. 207-220.         [ Links ]

4. M. Azimi-Sadjadi, S. Zekavat. Cloud classification using support vector machines. Proceedings of the Geosci. Remote Sens. Symp. IGARSS 2000. IEEE 2000 Int. Honolulu, USA. 2000. pp. 669-671.         [ Links ]

5. P. Addesso, R. Conte, M. Longo, R. Restaino, G. Vivone. SVM-based cloud detection aided by contextual information. Proceedings of the Tyrrhenian Work. Adv. Radar Remote Sens. Naples, USA. 2012. pp. 214-221.         [ Links ]

6. I. Bajwa, M. Naweed. ''Feature Based Image Classification by using Principal Component Analysis''. ICGST Int. J. Graph. Vis. Image Process. GVIP. Vol. 9. 2009. pp. 11-17.         [ Links ]

7. A. Tsonis. ''Single Thresholding and Rain Area Delineation from Satellite Imagery''. J. Appl. Meteorol. Vol. 27. 1988. pp. 1302-1306.         [ Links ]

8. I. Lensky, V. Levizzani. Precipitation: advances in measurement, estimation, and prediction. ''Estimation of precipitation from space-based platforms''. 1st ed. Ed. Springer. Berlin, Alemania. 2008. pp. 195-217.         [ Links ]

9. M. Desbois, G. Seze, G. Szejwach. ''Automatic Classification of Clouds on METEOSAT Imagery: Application to High-Level Clouds''. J. Appl. Meteorol. Vol. 21. 1982. pp. 401-412.         [ Links ]

10. J. Peak , T. Paul. ''Segmentation of satellite imagery using hierarchical thresholding and neural networks'' J. Appl. Meteorol. Vol. 33. 1994. pp. 605-616.         [ Links ]

11. F. De Osés. Meteorología Aplicada a la Navegación. 3rd ed. Ed. Univ. Politéc. de Catalunya. Barcelona, España. 2010. pp. 222.         [ Links ]

12. W. Xu, M. Wooster, G. Roberts, P. Freeborn. ''New GOES imager algorithms for cloud and active fire detection and fire radiative power assessment across North, South and Central America''. Remote Sens. Environ. Vol. 114. 2010. pp. 1876-1895.         [ Links ]

13. Instituto de Hidrología Meteorología y Estudios Ambientales. Atlas climatológico de Colombia. 1st ed. Ed. Imprenta Nacional de Colombia. Bogotá, Colombia. 2005. pp. 220.         [ Links ]

14. A. Tsonis. ''On the separability of various classes from the GOES visible and infrared data''. J. Clim. Appl. Meteorol. Vol. 23. 1984. pp. 1393-1410.         [ Links ]

15. A. Tsonis, G. Isaac. ''On a New Approach for Instantaneous Rain Area Delineation in the Midlatitudes Using GOES Data''. J. Clim. Appl. Meteorol. Vol. 24. 1985. pp. 1208-1218.         [ Links ]

16. B. Tso, P. Mather. Classification methods for remotely sensed data. 2nd ed. Ed. CRC Press. New York, USA. 2009. pp. 376.         [ Links ]

17. V. Vapnik. The Nature of Statistical Learning Theory. 1st ed. Ed. Springer. New York, USA. 2000. pp. 340.         [ Links ]

18. P. Tan, M. Steinbach, V. Kumar. Classification: Basic Concepts, Decision Trees, and Model Evaluation in Introduction to Data Mining. 1st ed. Ed. Addison- Wesley. 2005. pp. 769.         [ Links ]

19. T. Hastie, R. Tibshirani, J. Friedman. The elements of statistical learning. 2nd ed. Ed. Springer. New York, USA. 2009. pp. 745.         [ Links ]

20. A. Boulesteix, S. Janitza, J. Kruppa, I. Konig, A. Janitza. ''Overview of Random Forest Methodology and Practical Guidance with Emphasis on Computational Biology and Bioinformatics''. Data mining and knowledge Discovery. Vol. 2. 2012. pp. 493-507.         [ Links ]

21. B. Goswami, G. Bhandari. ''Convective Cloud Detection and Tracking from Series of Infrared Images''. J. Indian Soc. Remóte Sens. Vol. 41. 2012. pp. 1-9.         [ Links ]

22. I. Lizarazo, ''SVM-based segmentation and classification of remotely sensed data''. Int. J. Remote Sens. Vol. 29. 2008. pp. 7277-7283.         [ Links ]

23. D. Hillger, G. Ellrod. ''Detection of important atmospheric and surface features by employing principal component image transformation of GOES imagery''. J. Appl. Meteorol. Vol. 42. 2003. pp. 611-629.         [ Links ]

24. A. Ferreira. Meteorología práctica. 1st ed. Ed. Oficina de Textos. Sao Paulo, Brasil. 2006. pp. 188.         [ Links ]

25. D. Powers. ''Evaluation: From precision, recall and f-measure to roc., informedness, markedness & correlation''. J. Mach. Learn. Technol. Vol. 2. 2011. pp. 37-63.         [ Links ]

26. M. Sokolova, G. Lapalme. ''A systematic analysis of performance measures for classification tasks''. Inf. Process. Manag. Vol. 45. 2009. pp. 427-437.         [ Links ]