Introducción
Hasta este momento en la exploración petrolera en Cuba, la caracterización de los intervalos potencialmente productores de gas en la Franja Norte Petrolera Cubana (FNPC) no ha formado parte de la estrategia en los trabajos de exploración y cuando se ha efectuado, se ha apoyado fundamentalmente en los métodos de ingeniería de yacimientos, criterios geoquímicos y petrofísicos. En esos análisis lo que ha predominado es la evaluación del gas acompañante y no propiamente la de gas húmedo. Muchas de estas manifestaciones de gas se han encontrado en secuencias que no forman parte de los objetivos principales o reservorios, por lo que la información sobre todo de geofísica de pozo, ha sido insuficiente. Existe la limitante de la imposibilidad de evaluar ese potencial en los lugares que no posean pozos.
El objetivo de este estudio es precisamente detectar posibles reservorios (en una determinada formación geológica), que puedan contener hidrocarburos, a partir de poca información geológica directa, pero sí con datos sísmicos, para poder obtener conocimiento utilizando los atributos sísmicos.
El estudio se realizó en las áreas de los yacimientos Santa Cruz del Norte (tomado como patrón de aprendizajepredictivo) y Jibacoa (patrón predictivo), que se encuentran en la FNPC, principal zona productora de hidrocarburos de la República de Cuba (Figura 1). Como objetivo de trabajo se utilizó la controvertida Formación Vega Alta, considerada oficialmente como el sello regional de la FNPC. Esta es una secuencia sinorogénica que corresponde a depósitos de la cuenca de antepaís en profundidades batiales de edad Paleoceno-Eoceno Inferior. Está constituida por depósitos caóticos policomponentes que contienen bloques y fragmentos de calizas de diferentes edades, serpentinitas, rocas volcánicas y brechas. En la base se observan depósitos turbidíticos distales. Una breve caracterización lito-paleontológica determina que la conforman cuatro facies principales: a) facies arcillosa con clastos conglomeráticos (olistostromas); b) facies conglomerática arcillosa-arenosa; c) facies arcillosa silícea y d) facies arcillosa-carbonatada. En muchos intervalos se producen significativas manifestaciones de petróleo y gas, pero no deben olvidarse las limitadas posibilidades productivas que tienen estas secuencias, debido a la abundante matriz arcillosa que las caracteriza (Morales, 2014). Se instrumentó una metodología de trabajo consistente en tareas de recopilación, transformación, evaluación e interpretación de datos.
Metodología
Para el aprendizaje se seleccionaron intervalos reportados como productores de gas en pozos de estas áreas. Se realizó un análisis microfacial con la información dada por los cuttings y se calculó la proporción de la matriz arcillosa (porque esta no se recupera, ya que se disuelve en el fluido de perforación, o es lavada durante el proceso de preparación de las muestras). El volumen de la matriz arcillosa se obtiene, aplicando una metodología donde se calcula el porciento de arcilla libre por registros geofísicos radioactivos (Hernández, 2015). Con esta información, se construyó un modelo ternario de microfacies en correspondencia con la distribución de las rocas en esa área, según los siguientes criterios:
Criterio geoquímico: localización de ciertas anomalías según su espectro de cromatografía gaseosa y registros de hidrocarburo.
Criterio petrofísico: intervalos con registros geofísicos que de alguna manera indiquen características petrofísicas de ser potenciales reservorios de gas.
Criterio petrográfico: determinación de los porcientos litológicos por los cuttings.
Criterio espacial: intervalos con espesores mayores que 10 m.
Criterio sísmico: Intervalo cubierto por la sísmica 3D.
En este caso se realiza el estudio para posibles acumulaciones de gas húmedo, preferiblemente de tipo gas no asociado (gas libre que no está en contacto con el petróleo, formado por hidrocarburos livianos a intermedios, que no se condensan en el reservorio, pero sí lo hacen en superficie) (Martínez y Valdez, 2011).
En el análisis litofacial se tuvieron en cuenta grupos litológicos muy diversos, siendo en su gran mayoría clastitas (conglomerados, areniscas, limolitas y claystone de diversos tipos) y en menor cuantía rocas carbonatadas y silíceas. Las rocas clásticas están relacionadas con formaciones orogénicas, formadas mayormente por olistostromas de ambientes turbidíticos de alta energía, que son muy inmaduras texturalmente, con abundantes cantidades de matriz arcillosa.
Teniendo los valores de granulometría, calculados durante el estudio de las muestras y el porciento de matriz arcillosa calculado por registros gamma, se aplican entonces las clasificaciones universales establecidas para estas rocas (Pettijohn, 1975; Folk, 1980), utilizando para ellos gráficos ternarios preparados a tal efecto. Como la mayoría de estos intervalos, pertenecientes a la Formación Vega Alta, se encuentran fuera de los tradicionales reservorios, con un escenario geológico complejo y gran incertidumbre, carecen de una información petrofísica aceptable (Figura 2).

Figura 2 Correlación, donde se observa la información desigual en los intervalos de la Formación Vega Alta y los reservorios subyacentes para el yacimiento patrón Santa Cruz del Norte.
El problema científico radica en que, si se logran caracterizar litológicamente los intervalos gasíferos en los pozos, considerándolos como patrones, y se determina su grado de concordancia con el complejo de atributos sísmicos, entonces se podrá realizar la conversión de los atributos sísmicos a sismofacies, mediante la modelación, y apreciar de este modo posibles reservorios con características gasíferas, donde solo existe cobertura sísmica y como consecuencia se amplía el volumen de la exploración.
En la Figura 3 se presenta el modelo estructural correspondiente a la Formación Vega Alta en los yacimientos Santa Cruz del Norte - Jibacoa.

Figura 3 Modelo estructural del área Santa Cruz del Norte - Jibacoa, para la Formación Vega Alta. (Figura 6)
Como los pozos están dirigidos hacia los reservorios más profundos (carbonatos plegados del Grupo Veloz, en sus diferentes escamas yellow, green, red, blue y deep blue, de edad Jurásico Superior- Cretácico Inferior por debajo de la Formación Vega Alta), no están uniformemente distribuidos en el área (prácticamente alineados de oeste a este), haciendo que la información existente esté muy focalizada, como se puede observar en el yacimiento patrón Santa Cruz del Norte (Figura 4).

Figura 4 Trayectorias de los pozos en los yacimientos Santa Cruz del Norte y Jibacoa. Se muestran los intervalos con gas y sus respectivas facies (patrones), dentro del cubo sísmico.
Se caracterizaron litofacialmente 45 intervalos seleccionados como posibles productores de gas, donde la mayoría de éstos pertenecen a la Formación Vega Alta. Para la determinación de las microfacies terrígenas de grano grueso y medio (gravas y arenas), fue creado un modelo ternario, con arcilla, grava y arena (Figura 5), el cual permite su clasificación con gran facilidad cuando se han determinado con anterioridad los porcentajes de cada componente.
Para la clasificación de las microfacies carbonatadas arcillosas y arcillosas silíceas de grano fino, se compuso un modelo de doble entrada. Los componentes que se toman en cuenta son arcilla y ópalo (el principal es el componente silíceo, proveniente de los radiolarios). En el caso de las litofacies calcáreas se toma en cuenta el componente calcáreo (calcita) y su mezcla con arcilla (Figura 6).

Figura 6 Gráficos de doble entrada para la clasificación de las microfacies. A. Calcáreas. B. Las arcilloso-silíceas (Hernández, 2018).
De modo preliminar, puede afirmarse que los paquetes litológicos seleccionados pueden ser agrupados en las siguientes litofacies (Hernández, 2018):
Litofacies terrígenas de grano grueso: conglomerados y conglomerados arenosos.
Litofacies terrígenas de grano medio: arenitas y grauvacas diversas.
Litofacies terrígenas de grano fino: diversas rocas, tales como limolita, claystone y claystone limoso.
Litofacies arcilloso-silíceas, claystone silíceo y radiolaritas.
Litofacies calcáreas: calizas y margas diversas.
El yacimiento Santa Cruz del Norte es el más prolífico en la selección de intervalos potencialmente productivos de gas y con más pozos perforados, con grueso y medio y en menor cuantía las de grano fino y un total de 30 tramos, escogidos por sus propiedades las calcáreas. La expresión gráfica de sus espesores y petrofísicas y a los que se les realizó el análisis facial. la distribución en los modelos litofaciales se muestra En estos predominan las litofacies clásticas de grano en las Figuras 7, 8 y 9, respectivamente.

Figura 7 Microfacies del área Santa Cruz del Norte y la expresión gráfica de sus espesores (Hernández, 2018).

Figura 9 Gráfico de doble entrada para la clasificación de las rocas calcáreas para el área de Santa Cruz del Norte (Hernández, 2018).
Desde el punto de vista del análisis sedimentológico, el área de Santa Cruz del Norte resulta muy prometedora. El 25% del espesor de todos los tramos estudiados (237 m) se consideran reservorios potencialmente buenos para la producción de gas. Un 37% se evalúan como regulares (341 m) y el 38% restante son de mala calidad (Figura 10).

Figura 10 Calidad de los reservorios con potencial de gas en el yacimiento Santa Cruz del Norte (Hernández, 2018)
Los intervalos clasificados como regular (con un contenido de arcilla por encima del límite sedimentológico de 14%), son rocas con una elevada inmadurez textural, que pueden manifestar una permeabilidad aceptable para la producción de gas, por su gran diversidad granulométrica, y ciertos niveles de fracturación, principalmente las grauvacas y conglomerados arenosos.
En función del conocimiento obtenido y la resolución de la sísmica, se confeccionó para el estudio una variante más general de litofacies, la cual permite una mejor adaptación a las complejidades de las litologías y disminuir la incertidumbre de los resultados de la modelación tridimensional (Hernández, 2018).
De esta manera fueron agrupadas las microfacies en litofacies:

Figura 12 Modelos de doble entrada para la clasificación de las litofacies: A. calcárea; B. arcilloso-silíceas (Hernández, 2018)
Aplicación y calibración de los atributos sísmicos
Se denomina atributo sísmico a toda información obtenida de los datos sísmicos, ya sea por mediciones directas, por razonamiento lógico, o basado en la experiencia (Taner, 2001) o cualquier medida de los datos sísmicos que ayude a mejorar o cuantificar visualmente las características de interés en la interpretación (Chopra y Marfurt, 2007).
Estos pueden ser calculados tanto a partir de datos sísmicos pre o post apilamiento (pre-stack o poststack), como antes o después de la migración y se los puede clasificar de diferentes formas.
Posterior a un estudio bibliográfico sobre los atributos y sus características en el sistema de modelación PETREL (Daber y Aqrawi, 2010), se decidió experimentar con estos atributos, para la interpretación de las facies, en las difíciles condiciones geológicas existentes en esta zona.
A continuación, se da una breve descripción de los atributos sísmicos seleccionados y de los registros de pozo empleados como apoyo:
Atributo Impedance: El atributo impedancia acústica relativa muestra el contraste acústico aparente, indicando los límites de secuencias, facilitando un mejor enlace con la litología y relacionándose con la porosidad.
Atributo Atenuación: Atributo estratigráfico basado en la atenuación de frecuencia que compara las frecuencias por encima y por debajo de los puntos de análisis seleccionados, lo que permite que sea un buen indicador de fracturas abiertas si hay gas presente.
Atributo Sweetness: El atributo “dulzura” refleja ligeros cambios de energía. Este atributo frecuentemente se utiliza para discriminar características producidas por contrastes grandes de impedancia, tales como discordancias, fallas, contactos agua - petróleo y para definir límites de comportamiento del yacimiento. Es la combinación del atributo envolvente (envelope) y la frecuencia instantánea.
Atributo Coseno: El coseno de fase también llamado amplitud normalizada, funciona con valores de rendimiento o de salida entre -1 y 1. Este atributo es un excelente indicador de continuidad lateral, terminaciones estratigráficas y variaciones de facies sísmicas.
Atributo RMS: Cálculo de la raíz media cuadrática de la amplitud en una traza de una ventana especifica. Este atributo puede mostrar contrastes estratigráficos y cambios de densidad en los alrededores del objeto de estudio.
Atributo Isofrecuencia: Atributo estratigráfico de descomposición espectral en frecuencias, proporciona indicaciones sobre el grosor estratigráfico, identifica las características estructurales y estratigráficas sutiles, que lo hacen bueno para la cartografía de facies.
Atributo Structural smoothing: Realiza el suavizado de formas, por medio de un promedio ponderado gaussiano. Utiliza como entrada la varianza en la profundidad o caos. Elimina ruido de los datos y puede iluminar contactos de fluidos.
Atributo Chaos: Hace la cartografía de la “entropía” de la señal sísmica local. Esto lo hace útil para analizar y discriminar facies sísmicas.
Registro Neutrón: Los registros geofísicos neutrónicos se utilizan principalmente para delinear formaciones porosas.
Registro Gamma (CGR): Son registros geofísicos que permiten correlacionar formaciones, interpretar posibles litologías, determinar zonas permeables e impermeables y estimar el volumen de arcilla.
Registro Gamma (SGR): Registro geofísico que mide la radioactividad natural de la formación. Es un indicador del volumen de arcilla y análisis del ambiente de sedimentación.
Se utilizaron solamente estos registros de pozo, por ser los más comunes, ya que se obtienen en tiempo real, durante la perforación.
Es necesario aclarar que este estudio comprende a dos yacimientos contiguos, con un mismo modelo litofacial.
Descubrimiento de conocimiento en bases de datos
El descubrimiento de conocimiento en bases de datos KDD (del inglés Knowledge Discovery in Databases), es un proceso no trivial para identificar patrones válidos, novedosos, potencialmente útiles y en última instancia, comprensibles, a partir de grandes cantidades de datos (bigdata), teniendo como objetivo encontrar conocimiento útil, relevante y nuevo sobre un fenómeno o actividad. Este proceso consta de una secuencia iterativa de etapas o fases (Hernández-Orallo et al., 2004):
Resultados
El análisis exploratorio de los datos, tiene como objetivo el seleccionar de forma coordinada, los datos más relevantes del proceso, ya que la información recolectada puede contener errores en los datos o valores faltantes. Una mala calidad de los datos trae como consecuencia que los patrones descubiertos contrasten con la realidad, y la realización del proceso sea inútil.
Para la gestión de los datos se creó una Tabla de Objeto-Propiedad (TOP) (Tabla 1).
Se analizaron 2785 puntos en los pozos con sus respectivas asignaciones de litofacies según el modelo elegido (Figuras 11 y 12) y que generaron una cantidad de 4130 datos-objetos.
En la Tabla 2 se muestra un análisis estadístico preliminar de los valores de los atributos. Con esa información se procedió a la depuración de la base de datos, de valores extremos o fuera de rango (outliers) y se pudo determinar de forma preliminar cuáles son los atributos sísmicos capaces de diferenciar en mayor o menor grado las litofacies (Tabla 3).
Tabla 1 Detalle parcial de la TOP de los datos por pozos, los intervalos muestreados, sus valores de atributos sísmicos y clasificación litofacial.
Pozo | Prof. | Stru | Iso | Aten | Chaos | Imped | Cosen | RMS | Sweet | Facies |
---|---|---|---|---|---|---|---|---|---|---|
JIB-100 | 2800 | 0,88 | 0,72 | -0,01 | 0,07 | 3,98 | 0,62 | 1,92 | 3,18 | Claystone |
JIB-100 | 2800,2 | 0,88 | 0,72 | -0,01 | 0,07 | 3,97 | 0,62 | 1,92 | 3,18 | Claystone |
JIB-103 | 3733,84 | -0,07 | 0,82 | -0,02 | 0,13 | -0,97 | -0,43 | 0,95 | 1,28 | Claystone |
JIB-103 | 3733,99 | -0,07 | 0,82 | -0,02 | 0,13 | -0,97 | -0,42 | 0,95 | 1,28 | Claystone |
SC-202 | 3645 | 0,54 | 0,59 | 0,01 | 0,12 | 0,46 | 0,79 | 1,1 | 1,36 | CongAren |
SC-202 | 3650 | 0,49 | 0,58 | 0,01 | 0,11 | 0,79 | 0,69 | 1,08 | 1,34 | CongAren |
SC-202 | 3650 | 0,49 | 0,58 | 0,01 | 0,11 | 0,79 | 0,69 | 1,08 | 1,34 | CongAren |
SC-301 | 2440 | -0,16 | 0 | 0 | 0,71 | 0 | 1 | 0 | 0 | Grauvaca |
SC-301 | 3445 | -0,3 | 0,64 | 0 | 0,32 | -0,05 | -0,97 | 0,48 | 0,67 | CongAren |
SC-301 | 3450 | -0,31 | 0,57 | 0,01 | 0,28 | 0,02 | -0,96 | 0,5 | 0,72 | CongAren |
SC-302 | 1644 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | Grauvaca |
SC-302 | 1644,5 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | Grauvaca |
SC-303 | 1281,84 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | Grauvaca |
SC-303 | 1281,99 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | Grauvaca |
SC-304 | 2275,64 | 0,22 | 0,56 | -0,03 | 0,2 | -2,43 | 0,16 | 1 | 1,62 | CongAren |
SC-304 | 2275,79 | 0,21 | 0,56 | -0,03 | 0,2 | -2,42 | 0,17 | 1 | 1,62 | CongAren |
Tabla 2 Análisis estadístico descriptivo básico de los datos primarios.
Variable | Valid N | Media | Mediana | Mínimo | Máximo | Cuartil 25% | Cuartil 75% | Coeficiente de variación | Error estándar |
---|---|---|---|---|---|---|---|---|---|
Stru | 4130 | -0,058676 | -0,010 | -1,14 | 2,170 | -0,450 | 0,150 | -1004,42 | 0,009171 |
Iso | 4130 | 0,498964 | 0,570 | -0,14 | 0,900 | 0,280 | 0,690 | 51,70 | 0,004014 |
Aten | 4130 | -0,011140 | 0,000 | -1,14 | 0,060 | -0,030 | 0,020 | -513,74 | 0,000891 |
Chaos | 4130 | 0,258569 | 0,200 | 0,03 | 1,000 | 0,100 | 0,270 | 97,49 | 0,003923 |
Imped | 4130 | 0,292797 | 0,000 | -3,89 | 4,650 | -0,650 | 1,360 | 504,34 | 0,022978 |
Coseno | 4130 | 0,077630 | 0,155 | -1,00 | 1,000 | -0,560 | 0,750 | 888,61 | 0,010734 |
RMS | 4130 | 0,878266 | 0,920 | 0,00 | 2,480 | 0,520 | 1,130 | 59,05 | 0,008071 |
Sweet | 4130 | 1,152121 | 0,955 | 0,00 | 3,970 | 0,570 | 1,610 | 73,47 | 0,013171 |
Tabla 3 Análisis estadístico descriptivo después de eliminar los valores fuera de rango.
Variable | Valid N | Media | Mediana | Mínimo | Máximo | Cuartil 25% | Cuartil 75% | Coeficiente de variación | Error estándar |
---|---|---|---|---|---|---|---|---|---|
Stru | 4130 | -0,058676 | -0,010 | -1,14 | 2,170 | -0,450 | 0,150 | -1004,42 | 0,009171 |
Iso | 3995 | 0,493166 | 0,550 | -0,14 | 0,880 | 0,280 | 0,690 | 52,71 | 0,004113 |
Aten | 4112 | -0,008436 | 0,000 | -1,10 | 0,060 | -0,030 | 0,020 | -404,66 | 0,000532 |
Chaos | 4125 | 0,257670 | 0,200 | 0,03 | 1,000 | 0,100 | 0,270 | 97,38 | 0,003907 |
Imped | 4052 | 0,278801 | 0,000 | -3,89 | 4,650 | -0,660 | 1,370 | 533,25 | 0,023355 |
Coseno | 4103 | 0,082939 | 0,170 | -1,00 | 1,000 | -0,560 | 0,760 | 830,44 | 0,010753 |
RMS | 3933 | 0,809636 | 0,8910 | 0,00 | 1,920 | 0,520 | 1,080 | 52,80 | 0,006816 |
Sweet | 3951 | 1,053637 | 0,920 | 0,00 | 3,180 | 0,530 | 1,530 | 68,35 | 0,011458 |
Comparando las Tablas 2 y 3 se aprecia una ausentes (missing). Para el análisis (univariado) de la disminución apreciable de la variabilidad de los valores información del comportamiento de los atributos por por atributos, que ayuda a la mejor clasificación de facies, se emplearon gráficos de tipo caja y bigote. Se los datos. Los valores catalogados como fuera de mostrarán los más significativos (Figuras 13, 14, 15, 16).

Figura 13 Gráfico de caja y bigote: mediana, percentiles de 25% y 75% y valores máximos y mínimos permitidos (derecha). Atributo isofrecuencia. Atributo con capacidad de diferenciar las litofacies no clásticas (creta, claystone y radiolarita) de las litofacies clásticas.

Figura 14 Atributo Chaos. Atributo capaz de diferenciar la mayoría de las litofacies agrupando a la arenita y conglomerado arenoso.

Figura 15 Atributo RMS. Presenta una buena diferenciación entre la litofacies claystone de las demás.

Figura 16 Atributo Sweetness. Se puede considerar que posee el mejor comportamiento discriminatorio entre las litofacies.
Después de realizado el análisis exploratorio (univariado) de los datos, se procede a la fase de minería de datos MD (multivariada), que constituye el centro del proceso KDD. Uno de los principales problemas que se enfrentan en la clasificación de objetos geológicos es la precedencia de la incertidumbre, ya que no se cuenta con el conocimiento suficiente de los fenómenos y los parámetros que se evalúan.
Discusión
Con esta información previa sobre el comportamiento de los atributos se puede pasar a la etapa de la utilización de metodologías multivariadas y clasificación supervisada. Se utilizó el software Weka 3.9.3 (Weka, 2008), que se define como una colección de algoritmos de aprendizaje por computadora (en librerías JAVA), para tareas de minería de datos y que contiene herramientas para la preparación, clasificación regresión, agrupamiento, reglas de asociación y visualización de datos.
En la Figura 17 se presentan los datos patrones según las litofacies: claystone 330 (azul oscuro, 7,99%), creta 1047 (rojo, 25,35%), radiolarita 303 (azul claro, 7,33%), arenita 154 (verde oscuro, 3,72%), grauvaca 1351 (ocre, 32,71%) y conglomerado 945 (verde claro, 22,88%) para un total de 4130 muestras con 8 atributos a clasificar.
Para este análisis del conocimiento se determinó manejar los clasificadores J48 (C4.5), Naive Bayes y redes neuronales artificiales.
El algoritmo J48 es de tipo árbol de decisión predictivo y es muy utilizado en MD. Permite realizar particiones tanto numéricas como nominales. Es muy robusto frente a datos ausentes. La técnica bayesiana (Naive Bayes) tiene entre sus principales características el uso explícito de la teoría de la probabilidad para cuantificar la incertidumbre. Es un modelo que permite un doble uso: descriptivo y predictivo. En los modelos descriptivos, los algoritmos de aprendizaje de redes bayesianas se centran en el descubrimiento de relaciones de interdependencia y/o relevancia entre sus variables.
Por su parte, las redes neuronales artificiales (en su variante multilayer perceptron) son modelos matemáticos capaces de adaptar su comportamiento en respuesta al medio de manera supervisada o no supervisada, y hacer una generalización una vez entrenada. Este clasificador realiza el aprendizaje mediante el ajuste multicapas y sus pesos direccionales (backpropagation) (Hernández et al., 2004).
Para el trabajo con estos algoritmos se empleó la opción de trabajo de validación cruzada (crossvalidation), que calcula el porcentaje esperado de aciertos mediante una validación de k evaluaciones.
Para la evaluación de los clasificadores en Weka se contabilizaron (para simplificar el análisis):
Cantidad de instancias clasificadas correctamente (Correctly Classified Instances CC) (% de verdaderamente positivos o negativos y/o coincidentes entre la clasificación prefijada por el experto o patrón y la clasificación a posteriori dada por el algoritmo).
Cantidad de instancias clasificadas incorrectamente % de (Incorrectly Classified Instances IC) (falsos positivos o negativos).
Estadígrafo Kappa (Kappa statistic): se usa para medir la correspondencia entre la clase predicha y la clase real, corrigiendo las correspondencias que ocurren por azar. Máximo valor 1 o 100%.
El error cuadrático medio (Root Mean Squared error, RMS) es el error cuadrático normalizado por el error cuadrático total de un predictor por defecto en %.
Matriz de confusión (confusion matrix) es la matriz o tabla de contingencia, está formada por tantas filas y columnas como clases existan. La cantidad de instancias clasificadas correctamente es la suma de la diagonal (o traza) de la matriz y el resto están clasificadas de forma incorrecta.
A continuación, se presenta en la Tabla 4 un resumen de los parámetros resultantes de cada análisis, con los algoritmos empleados.
En la Tabla 5 se presentan las matrices de confusión para cada algoritmo que incluyen las litofacies.
Todos los algoritmos de clasificación utilizados se comportaron muy eficientes, para poder identificar las litofacies patrones según los atributos sísmicos, aunque el J48 se destaca como ligeramente superior en este estudio (Tabla 4 y 5).
Tabla 4 Resultados de los algoritmos utilizados en porcientos.
Algoritmo | Objetos | CC% | IC% | Kappa% | RMS% |
---|---|---|---|---|---|
Naive Bayes | 4130 | 87,53 | 12,46 | 83,5 | 17,8 |
J48 | 4130 | 99,44 | 0,55 | 99,27 | 3,88 |
Red Neural (1000 iteraciones) | 4130 | 98,11 | 1,88 | 97,52 | 6,97 |
Red Neural (5000 iteraciones) | 4130 | 98,45 | 1,54 | 97,97 | 6,46 |
Tabla 5 Matrices de confusión resultantes de los algoritmos utilizados. a) Claystone, b) Creta, c) Radiolaritas, d) Arenita, e) Grauvaca, f) Conglomerado arenoso.

Se determinan los atributos por su orden de significancia:
Chaos (100%)
RMS (90%)
Atenuación (80%)
Structural smoothing (70%)
Isofrecuencia (60%)
Coseno (60%)
Impedance (50%)
Sweetness (40%)
Respetando el conocimiento adquirido, tanto en el análisis univariado y multivariado se toma la decisión que todos los atributos utilizados poseen un nivel aceptable de discriminación cuando se desarrollan en un ambiente multivariado y ante la alta incertidumbre que presenta el modelo litofacial, se optó por considerarlos a todos para la clasificación.
Se procedió a la clasificación del modelo litofacial del yacimiento Santa Cruz del Norte y Jibacoa, para laFormación Vega Alta. Para realizar el pronóstico de todael área, se creó una matriz (escalado) de una malla con tamaño de celda de 50m x 50m x 50m (0,125 km3), como promedio general en el modelo geológico, para clasificar un total de 349852 celdas (43731,5 km3), que contiene los atributos sísmicos seleccionados, pero sin información litofacial.
Para el cálculo de las probabilidades de semejanza con los patrones se utilizó el sistema Stanford Geostatistical Modeling Software (SGeMS). Se basa en la geoestadística; o sea, el estudio estadístico espacial de fenómenos físicos y estimación de fenómenos naturales (Pyrcz y Deutsch, 2014). Se aplicó del software SGeMS, el algoritmo geoestadístico de la Simulación Secuencial de Indicadores (SISIM), el cual permite la obtención de modelos simulados equi-probables para variables categóricas (o denominadas discretas desde el punto de vista numérico), dentro de un ambiente probabilístico (Arias del Toro y Pérez-Campos, 2015).
En la Figura 18 se muestra el modelo litofacial producto de la clasificación por atributos sísmicos estudiados con el algoritmo J48.
Para disminuir en cierta medida la entropía presente entre las litofacies y homogeneizar el modelo, a la matriz con dimensión de celdas de 50m x 50m x 50m, se le aplicó un filtro de promedios móviles (para el cálculo de la probabilidad de pertenencia a cada facies), resultando una nueva matriz con celdas de 250m x 250m x 50m. Ya con las probabilidades calculadas por cada celda, se realizó una nueva depuración que incluye solamente aquellas celdas con un valor de pertenencia de similitud (probabilidad) con las litofacies patrones ≥ 70% (Figura 19), a partir del modelo litofacial de la Figura 18.
Se puede apreciar el predominio de las litofacies de grauvaca y en menor medida de las arenitas y conglomerados. Este comportamiento (aunque modelado) se acerca al concepto estudiado en el modelo de microfacies y corresponde a la tendencia de los procesos turbidíticos ocurridos.
Se procedió a aplicar la misma metodología de clasificación, pero utilizando el algoritmo multilayer perceptron. El modelo resultante no se correspondió con el modelo de microfacies patrón, por lo que se descarta por ahora y queda sujeto a futuros estudios.
A partir del modelo obtenido se procedió al cálculo del riesgo para la exploración y potencial de recursos (especulativo) para gas húmedo mediante la modelación de Monte Carlo, según la metodología establecida (Gómez-Herrera y Rodríguez-Morán, 2013) (Figura 20).

Figura 18 Modelo litofacial clasificado del área Santa Cruz-Jibacoa dentro de la Formación Vega Alta

Figura 19 Volumen de reservorio con una confiabilidad (probabilidad) ≥ 70%, según modelo litofacial de 5 elementos (parte superior izquierda)
Conclusiones
Los resultados obtenidos en el proceso de modelación de las litofacies partiendo del análisis de los atributos sísmicos presentan gran similitud y consistencia en su distribución, con el análisis microfacial de los intervalos seleccionados en los pozos (patrones con presencia de gas) del área Santa Cruz del Norte, derivados del estudio directo.
La utilización de técnicas estadísticas y de minería de datos en el proceso KDD, resultó ser muy satisfactoria y útil en la investigación de ambientes con insuficiente información geológica, alta incertidumbre y estén cubiertos por la sísmica, como es el caso de los reservorios gasíferos en la Formación Vega Alta.
Las litofacies de grauvaca y arenita, con alto grado de heterogeneidad, son las indicadas según el modelo como las más perspectivas para contener depósitos comercializables de gas húmedo.
En esta etapa de estudio, el algoritmo de clasificación supervisada de árboles de decisión J48 fue muy eficiente en estas condiciones de gran variabilidad e incertidumbre entre las litofacies y los atributos en el área de estudio.
Es necesario realizar un estudio más profundo sobre el mal resultado obtenido en la aplicación del algoritmo de redes neuronales en la clasificación. Es posible que esto se deba a un fenómeno de sobreajuste (overfitting) o desajuste (underfitting), que pueda estar vinculado con una insuficiente caracterización en la complejidad del modelo.
Se recomienda continuar la aplicación de esta metodología en otras áreas de la FNCP, sobre todo en aquellas donde esté planificada la perforación, para la verificación del modelo (en el área de Jibacoa en este momento ya se están perforando dos pozos exploratorios).