CLASIFICACIÓN DE GÉNERO BASADA EN SEÑALES DE VOZ MEDIANTE MODELOS DIFUSOS Y ALGORITMOS DE OPTIMIZACIÓN

Cortés-Martinez, Luis Miguel; Espitia-Cuchango, Helbert Eduardo; Cortés-Martinez, Luis Miguel; Espitia-Cuchango, Helbert Eduardo

doi:10.15332/iteckne.v16i2.2356

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Iteckne

Print version ISSN 1692-1798

Iteckne vol.16 no.2 Bucaramanga July/Dec. 2019

https://doi.org/10.15332/iteckne.v16i2.2356

Artículos de investigación e innovación

CLASIFICACIÓN DE GÉNERO BASADA EN SEÑALES DE VOZ MEDIANTE MODELOS DIFUSOS Y ALGORITMOS DE OPTIMIZACIÓN

GENDER CLASSIFICATION BASED ON VOICE SIGNALS USING FUZZY MODELS AND OPTIMIZATION ALGORITHMS

Luis Miguel Cortés-Martinez¹

Helbert Eduardo Espitia-Cuchango²

^¹Universidad Distrital Francisco José de Caldas, Bogotá, Colombia, lmcortesm@correo.udistrital.edu.co.

^²Universidad Distrital Francisco José de Caldas, Bogotá, Colombia, heespitiac@udistrital.edu.co.

Resumen

En este documento se describe un esquema de clasificación de género, basado en señales de voz, en el que se proponen y prueban 16 modelos difusos diferentes que son optimizados mediante cuatro algoritmos bioinspirados y el método cuasi-Newton. El esquema de clasificación considera cuatro conjuntos de datos y cinco características de voz diferentes para definir los valores de entrada de un algoritmo en el proceso de optimización. Los valores de entrada de cada modelo difuso definen la media y varianza de sus funciones de pertenencia gaussianas, y su desempeño se evalúa mediante los valores de entrada del algoritmo de optimización y el error cuadrático medio como función objetivo para minimizar. Se hace un análisis comparativo entre modelos, algoritmos y conjuntos de datos para obtener conclusiones de acuerdo con los resultados de cada modelo optimizado.

Palabras clave: Lógica difusa; optimización; algoritmos genéticos; búsqueda armónica; evolución diferencial; optimización con enjambre de partículas; método cuasi-Newton; clasificación de género

Abstract

This paper describes a gender classification scheme based on voice signals in which 16 different fuzzy models are proposed and optimized using four bio-inspired optimization algorithms and the quasi-Newton method. The classification scheme considers four data sets and five different voice features to define the input values of an algorithm in the optimization process. The inputs of each fuzzy model define the mean and variance of their Gaussian membership functions, and their fitness is evaluated by the input values of the algorithm and mean squared error as objective function to be minimized. A comparative analysis between models, algorithms and data sets is made to obtain conclusions according to the results of each optimized model.

Keywords: Fuzzy logic; optimization; genetic algorithms; harmony search; differential evolution; particle swarm optimization; quasi Newton method; gender classification

1. INTRODUCCIÓN

Las señales de voz han sido estudiadas con diversos propósitos de clasificación, detección o reconocimiento. Se han planteado e implementado sistemas de clasificación de género ¹^)-(⁶. En ⁴^{) y (}⁵ se mencionan posibles aplicaciones y motivaciones de este objetivo.

Otros propósitos del uso de señales de voz es la formulación e implementación de sistemas para la distinción del habla ⁷^)-(⁹, reconocimiento del habla ¹⁰, reconocimiento de lenguaje ¹¹, reconocimiento de emociones basados en habla y en género ¹²^{), (}¹³, diagnóstico de enfermedades patológicas como la disfonía y la laringitis ¹⁴, diagnóstico de nódulos, edemas y parálisis unilateral de las cuerdas vocales ¹⁵, reconocimiento de disartria en sistemas de reconocimiento automático de habla ¹⁶ y la detección temprana de Parkinson mediante voz ¹⁷.

Además de señales de voz, se han propuesto alternativas de clasificación que utilizan otras características de los individuos para clasificar el género. Algunos autores han propuesto la clasificación mediante el procesamiento de características fisionómicas humanas como la forma de la cara ¹⁸, las manos ¹⁹, las orejas ²⁰ y los iris ²¹. Otros autores han utilizado estas características para la estimación de la edad y su clasificación por rangos ²²^)-(²⁵.

La aparición y evolución de enfoques de clasificación que utilizan modelos de lógica difusa, redes neuronales artificiales, redes adaptativas de inferencia neurodifusa o aprendizaje automático en sistemas de control ha generado numerosos estudios e implementaciones en sistemas de detección, reconocimiento o clasificación. Se han propuesto modelos de redes neuronales ¹⁰^{), (}¹³^{), (}¹⁷, algoritmos genéticos ², sistemas de inferencia neurodifusa (ANFIS) ³, y máquinas de soporte vectorial (SVM) ⁶ con el fin de clasificar con un margen de error bajo el género de una señal de voz humana. En este artículo, la clasificación se realiza mediante la aplicación de algoritmos de optimización a modelos difusos.

En este trabajo se presenta un esquema implementado en Matlab®, en el que se prueban 16 diferentes modelos de inferencia difusa (modelos difusos) de clasificación de género, los cuales se diferencian principalmente en la cantidad de entradas y los tipos de entrada especificados.

El objetivo principal del esquema propuesto es encontrar modelos de clasificación de género, basados en señales de voz humanas con un bajo margen de error; se hace la comparación de resultados entre modelos difusos, algoritmos de optimización bioinspirados y conjuntos de datos de entrada probados.

Para las entradas de los modelos difusos se definen cinco características por cada señal de voz. Cada modelo difuso propuesto utiliza tres, cuatro o cinco de estas características como entradas. Esto se realiza principalmente para determinar las entradas con mayor capacidad de clasificar géneros con un menor margen de error.

Los modelos son optimizados mediante cuatro algoritmos bioinspirados, y posteriormente optimizados, utilizando el método cuasi-Newton. Se implementan tres configuraciones diferentes para cada algoritmo bioinspirado por cada modelo en cada uno de los cuatro conjuntos de datos obtenidos del preprocesamiento de señales de voz.

El análisis de los resultados de desempeño de este trabajo permite encontrar el modelo difuso con la mayor capacidad para clasificar el género de una señal de voz humana. Adicionalmente, la interpretabilidad de este modelo hace posible la descripción de la voz perteneciente a un género determinado en función de las diferentes características de voz con las que se relaciona.

Por otra parte, la variedad de resultados obtenidos es analizada con el fin de establecer los modelos, conjuntos de datos, algoritmos bioinspirados y configuraciones de parámetros de mayor rendimiento.

La estructura de este documento es la siguiente. En la Sección 2 se definen las bases de lógica difusa. En la Sección 3, los algoritmos de optimización. En la Sección 4, las características de las señales de voz utilizadas. En la Sección 5 se presenta el esquema propuesto de clasificación. En la Sección 6 se hace el análisis cuantitativo y cualitativo de los resultados obtenidos. En la Sección 7 se listan las conclusiones obtenidas con base en la implementación y los resultados.

2. LÓGICA DIFUSA

La lógica difusa nace de la teoría de conjuntos difusos, base para el desarrollo del enfoque lingüístico ²⁶, y sus valores de verdad pueden ser intermedios entre los valores verdadero y falso. De este modo, la lógica difusa, a diferencia de la lógica proposicional, no es dicotómica, cuantifica valores de verdad y tiene la capacidad de lidiar con la inferencia causal aproximada ²⁷.

La lógica difusa es la base del funcionamiento de los sistemas de inferencia difusa basados en reglas ²⁸. Estos están compuestos esencialmente de entradas, salidas, funciones de pertenencia y reglas de inferencia. A través de estos componentes y su configuración se obtienen los valores estimados de salida como valores aproximados de verdad para la clasificación, de acuerdo con los valores de entrada. El proceso de diseño de un modelo difuso involucra la definición del conjunto de entradas y salidas del sistema difuso, así como la posición, forma y dominio de sus funciones de pertenencia y las reglas de inferencia. La clasificación con bajo margen de error depende del diseño del sistema, lo que puede depender del criterio, pruebas y validación de expertos en el área particular de investigación ²⁹.

A diferencia del enfoque de redes neuronales, los sistemas difusos pueden ser interpretables ²⁸, lo que los hace útiles en problemas de control con alta interpretabilidad. Esto permite la descripción de las salidas en términos de las entradas, reglas de inferencia y funciones de pertenencia. La certeza en la descripción de las salidas dependerá del valor de desempeño del sistema de clasificación difuso. Sin embargo, la interpretación de un sistema difuso puede dificultarse si su estructura es de alta complejidad ³⁰. La complejidad estructural de un sistema difuso depende proporcionalmente de la cantidad de reglas de inferencia y funciones de pertenencia en entradas y salidas. Los modelos difusos propuestos en este artículo tienen una estructura de complejidad moderada para evitar la obstrucción de su interpretabilidad.

En las últimas décadas, la aplicación de conjuntos difusos se ha visto ignorada en el campo del procesamiento del lenguaje natural y del habla, y se ha cuestionado la utilidad y contribución de la lógica difusa en las aplicaciones relacionadas con el procesamiento de señales de voz ³¹. No obstante, la evolución de la computación y contribuciones tecnológicas en los últimos años han favorecido al enfoque de lógica difusa para su utilización en diversos campos de estudio ³².

3. ALGORITMOS DE OPTIMIZACIÓN

En esta Sección se definen cuatro algoritmos bioinspirados y el método cuasi-Newton.

Los algoritmos bioinspirados tienen el objetivo de optimizar problemas que presentan múltiples soluciones locales, con el fin de converger a una solución óptima global. Simulan la forma en que la naturaleza se enfrenta a problemas de optimización mediante la evolución natural de especies ³³. Por esta razón, estos algoritmos tienen naturaleza aleatoria y dependiente de múltiples parámetros. También existe la posibilidad de converger prematuramente a soluciones sobresalientes.

Atributos comunes en los algoritmos bioinspirados son una cantidad de iteraciones, una población o número de individuos, variables aleatorias y un criterio de finalización que se define principalmente con un número máximo de iteraciones o generaciones, con opciones adicionales, como detenerse al lograr un valor mínimo de desempeño, o una desviación estándar pequeña en los valores de desempeño de la población en una iteración.

Los algoritmos genéticos (GA), de búsqueda armónica (HS), de evolución diferencial (DE) y de optimización con enjambre de partículas (PSO) son los algoritmos bioinspirados que han sido utilizados para la optimización de los modelos difusos propuestos.

3.1 Algoritmos genéticos (Genetic Algorithms - GA)

Un algoritmo genético es una forma de evolución que ocurre en un computador. Los algoritmos genéticos son un método de búsqueda útil para resolver problemas de optimización y modelar sistemas evolutivos ³⁴.

La forma más simple de algoritmo genético involucra tres tipos de operadores: selección, cruce y mutación ³⁵^{), (}³⁶. Estos operadores aplican iterativamente una cantidad de generaciones.

En primer lugar, los desempeños de cada individuo en la población son evaluados. Luego, el proceso de selección genera valores de expectativa por individuo para influenciar su probabilidad de reproducción.

La reproducción es simulada mediante los algoritmos de cruce y mutación que utilizan los individuos seleccionados como padres para generar individuos nuevos para la próxima generación.

El cruce, también llamado recombinación, consiste en combinar el genotipo de dos padres en un solo individuo. La mutación, en cambio, es la alteración genética aleatoria en el genotipo de un único padre en la población.

Los operadores de cruce y mutación pueden verse como maneras de mover a la población en el paisaje definido por la función de aptitud ³⁵. Con estos operadores se busca la convergencia a un valor óptimo global y se logra una exploración mayor en el espacio de posibles soluciones.

Esta secuencia se repite por una cantidad de generaciones o hasta cumplir con el criterio de finalización. Tanto la mutación como la recombinación de individuos son procesos estocásticos, pues tienen un valor asociado de probabilidad.

El diagrama de flujo que describe el funcionamiento de los algoritmos genéticos se muestra en la Fig. 1.

Fuente: Los autores.

Fig. 1. DIAGRAMA DE FLUJO DE ALGORITMO GA

3.2 Algoritmo de búsqueda armónica (Harmony Search - HS)

La armonía musical es una combinación de sonidos considerada agradable desde un punto de vista estético. La armonía en la naturaleza es una relación especial entre varias ondas de sonido que tienen diferentes frecuencias ³⁷.

El algoritmo de búsqueda armónica imita la improvisación musical en la que los músicos intentan encontrar mejores armonías basadas en la aleatoriedad o sus experiencias ³⁸.

Se compone de una memoria armónica (HM) en la que se encuentran conjuntos de valores que representan las notas en una armonía. Esta memoria tiene un tamaño específico (HMS).

En el contexto de optimización, una nota es un valor de atributo de un individuo, y una armonía o conjunto de notas en la memoria armónica, es el individuo con todos sus atributos.

En cada iteración, las armonías existentes en la memoria armónica son improvisadas de acuerdo con una tasa de consideración de la memoria armónica (HMCR).

El proceso de improvisación de armonías puede utilizar una armonía de la memoria armónica (familiar) y alterar sus notas con un valor de probabilidad y una tasa de ajuste de tono (PAR), o generar una armonía completamente aleatoria dependiendo de un valor aleatorio que es comparado con el valor de HMCR como se define en la ecuación (1), dondeA _i es una armonía yp _i un valor de probabilidad.

(1)

SiendoA _i una armonía,p _i un valor aleatorio entre 0 y 1,A’ _HMSi una armonía en la memoria armónica con posibles modificaciones, yA _rand un acorde aleatorio.

Si alguna de las armonías producidas en una iteración tiene mejor desempeño que al menos una armonía en la memoria armónica, esta ocupará el espacio de la peor armonía en la memoria.

La tasa de ajuste de tono (PAR) es un valor opcional del algoritmo que imita el ajuste de tono de cada instrumento para afinar el conjunto ³⁷. El mecanismo de ajuste de tono se diseña como el desplazamiento de una nota a valores vecinos dentro de un rango de valores posibles. Esta tasa puede ser un valor constante, o un valor decreciente que inicia en un valor máximo y llega a un valor mínimo en la última iteración, con el fin de explorar en mayor profundidad la región del espacio de posibles soluciones donde se estima la ubicación del valor óptimo global.

El diagrama de flujo que describe el funcionamiento del algoritmo de búsqueda armónica se muestra en la Fig. 2.

3.3 Algoritmo de evolución diferencial (Differential Evolution - DE)

La idea crucial detrás de este algoritmo es un esquema para generar vectores de parámetros de prueba ³⁹. El algoritmo de evolución diferencial genera nuevos vectores de parámetros (individuos) al agregar un vector de diferencia ponderada entre dos miembros de la población a un tercer miembro. Si el vector resultante produce un valor de función objetivo más bajo que un miembro de población predeterminado, el vector recién generado reemplazará el vector con el que se comparó en la siguiente generación.

Para variar los parámetros en la población se define un operador de variación diferencial, que se realiza mediante el cambio en el valor de los parámetros de los vectores en una iteración, mediante la ecuación (2).

(2)

Siendo el pesoFun valor constante, yX _{r1, G} , X _{r2, G} , X _{r3, G} vectores de la matriz de población en la generaciónG.

Luego se aplica un operador de cruce probabilístico, que funciona con una tasa de cruce y valores aleatorios por cada elemento de cada vector en la población. Esta es la primera estrategia definida para este algoritmo por Storn y Price ³⁹.

Los elementos con un valor menor a la tasa de cruce (CR) toman el valor respectivo del vectorV.Los elementos restantes, con un valor aleatorio mayor o igual a la tasa de cruce, permanecen sin cambios. El valor de cada parámetrojen cada vectorise muestra en la ecuación (3).

(3)

Siendop _i,j un valor aleatorio entre 0 y 1.

Una vez finalizado el proceso de cruce, se realiza el proceso de selección vector por vector de la matriz de poblaciónU. En este proceso, cada vector es comparado con los demás en la población. Un vector será miembro de la población de la siguiente generación si y solo si su desempeño es mejor que el desempeño de otro vector en la población de la generación actual; de lo contrario, la población no se verá alterada.

El diagrama de flujo que describe el funcionamiento del algoritmo de evolución diferencial se muestra en la Fig. 3.

3.4 Algoritmo de optimización con enjambre de partículas (Particle Swarm Optimization - PSO)

El algoritmo de optimización con enjambre de partículas se inspira en el comportamiento social emergente que puede observarse en bandadas de aves y cardúmenes de peces de algunas especies ⁴⁰.

Fuente: Los autores.

Fig. 2. DIAGRAMA DE FLUJO DE ALGORITMO HS

Fuente: Los autores.

Fig. 3. DIAGRAMA DE FLUJO DE ALGORITMO DE

La población está compuesta de partículas, siendo la posición de cada una de ellas un punto solución en el espacio de soluciones posibles de un número de dimensiones igual al número de parámetros del problema.

En cada iteración se actualiza la mejor posición de cada partícula (mejor posición individual), y la mejor posición del enjambre (mejor posición global). Con estos valores se calcula la velocidad de cada partícula mediante la ecuación (4).

(4)

Donde:

ies el índice del individuo.

nes el índice de iteración.

es la velocidad del i-ésimo individuo.

es la posición del i-ésimo individuo.

w(n) es la función de inercia.

es la mejor posición del i-ésimo individuo.

es la mejor posición del enjambre.

( son (valores aleatorios entre 0 y 1.

Una vez calculadas las velocidades se determina la posición de cada partícula para la siguiente iteración mediante la ecuación (5).

(5)

La inercia puede utilizarse como un valor constante o definirse con otros enfoques específicos ⁴¹. Uno de estos enfoques define a la inercia como un valor linealmente dependiente de las iteraciones como se define en la ecuación (6) ⁴².

(6)

Dondew _max yw _min son los valores máximos y mínimos de inercia y N es el número total de iteraciones.

El diagrama de flujo que describe el funcionamiento del algoritmo de optimización con enjambre de partículas se muestra en la Fig. 4.

3.5 Método cuasi-Newton (Quasi-Newton method)

El método cuasi-Newton es un método de optimización basado en gradiente ⁴³, útil en la optimización de problemas en los que se busca converger a una solución óptima local de una función objetivo a minimizar, partiendo de un punto inicial en el espacio de soluciones posibles.

Este se basa en el método de Newton, el cual establece que para un punto y una función objetivo , existe un punto dado por la ecuación (7) que se aproxima a un mínimo local en el espacio de soluciones.

(7)

Donde es el gradiente de la función objetivo, ² es el Hessiano de la función objetivo, y es un punto mínimo estimado de la función.

El cálculo del Hessiano de una función objetivo puede tener un alto costo computacional, especialmente cuando las funciones no son lineales y se definen con múltiples variables ⁴³.

El método cuasi-Newton calcula un valor aproximado del Hessiano. Se han desarrollado métodos de actualización del Hessiano como la fórmula de Davidon, Fletcher y Powell (DFP), y la fórmula de Broyden, Fletcher, Goldfarb y Shanno (BFGS). Esta última se considera la más efectiva para el uso en un método de propósito general ⁴⁴^{), (}⁴⁵.

El esquema general del algoritmo se muestra en la Fig. 5.

4. CARACTERÍSTICAS DE LAS SEÑALES DE AUDIO

Esta Sección describe las cinco entradas utilizadas para los modelos difusos propuestos, abreviadas mediante las siglas EE, STE, ZCR, RMS y PSC.

Algunos artículos, con el propósito de clasificar el género utilizan las entradas EE, STE y ZCR como características fundamentales de las voces ¹^{), (}⁶. En ⁴⁶ se ha planteado que las entradas STE y ZCR pueden clasificar sonidos que se asocian a entornos específicos.

En ¹ se ha planteado que las características STE y ZCR tienen un valor bajo en voces masculinas, y un valor alto y continuo en voces femeninas.

Otros artículos han trabajado con los coeficientes MFCC (Mel Frequency Cepstral Coefficients) para la clasificación de género ⁴⁷, reconocimiento de oradores ¹⁰, y detección de patologías por medio de señales de voz ⁷^{), (}¹⁵^{), (}⁴⁸.

Fuente: Los autores.

Fig. 4. DIAGRAMA DE FLUJO DE ALGORITMO PSO

Fuente: Los autores.

Fig. 5. DIAGRAMA DE FLUJO MÉTODO CUASI-NEWTON

4.1 EE (Energy Entropy)

La entropía en la señal de voz se mide con los cambios repentinos en el nivel de energía de una señal de voz ¹. Para calcularla, la señal de voz se divide inicialmente en k ventanas y luego se calcula la energía normalizada de la señal por cada ventana.

El valor de entropía es la suma de todos los valores calculados. La entropía de la señal está dada por la ecuación (8), donde es la energía de la señal normalizada.

(8)

Esta característica se ha utilizado para otros propósitos relacionados, como la detección del habla ⁹.

4.2 STE (Short Time Energy)

La característica STE de una señal de voz busca ver la tendencia que esta tiene de aumentar repentinamente en lapsos cortos de tiempo. El valor STE de una ventana de la señal se calcula mediante la ecuación (9).

(9)

Dondeyes una señal,ses el tamaño de una ventana de la señal, yh(r)es la función de ventana definida en la ecuación (10).

(10)

Normalmente, la energía es alta si hay una voz en la señal ². Se ha planteado esta característica para la detección de frecuencia en el habla ⁴⁹.

Esta entrada puede ser de utilidad para detectar los momentos en los que una señal tiene amplitud insuficiente facilitando la remoción de silencio de las señales de voz ⁵⁰^{), (}⁵¹. Es posible detectar el silencio de una señal al establecer un umbral mínimo de STE de modo que los valores menores a este umbral pueden catalogarse como silencios en una señal.

4.3 ZCR (Zero Crossing Rate)

Para una señal descrita por un vectorX, la tasa de cruces por cero (ZCR) se calcula por pares consecutivos deXcomo lo describe la ecuación (11).

(11)

Siendosgnla función signo, definida en la ecuación (12).

(12)

4.4 RMS (Root Mean Square)

Para una señal descrita por un vector, el valor cuadrático medio de una señal está definido por la ecuación (13).

(13)

Se define como la raíz cuadrada del cuadrado medio, es decir, de la media aritmética de los cuadrados de un conjunto numérico. La diferencia entre esta entrada y STE es que esta característica no es calculada por ventanas, sino que resume el comportamiento de la señal total en un único valor. Además, como se trata de la raíz cuadrada tiene una sensibilidad menor que STE.

4.5 PSC (Perceptual Spectral Centroid)

El centroid espectral es una medida utilizada en el procesamiento digital de señales para caracterizar el espectro de frecuencia de una señal. Investigadores creen que la calidad del brillo del timbre se correlaciona con el aumento de la potencia en altas frecuencias ⁵². Esta medida de frecuencia indica la posición en la que se encuentra el baricentro del espectro.

Perceptualmente, tiene una conexión robusta con la impresión de brillo del sonido ⁵³. Se calcula como la media ponderada de frecuencias, determinada mediante la transformada de Fourier, con sus magnitudes en el histograma de la señal. Se calcula mediante la ecuación (14).

(14)

Siendox(n) el valor de frecuencia ponderada de una ubicaciónnen el histograma de la señal, yf(n) la frecuencia central de esa ubicación ⁵⁴.

Se ha utilizado esta medida para estudiar el brillo en el sonido de instrumentos musicales y clasificar las emociones que son capaces de evocar los sonidos ⁵⁵.

5. ESQUEMA DE CLASIFICACIÓN PROPUESTO

El esquema propuesto abarca 4 algoritmos bioinspirados, 4 conjuntos de datos, 3 configuraciones diferentes por algoritmo bioinspirado y 16 modelos difusos, dando lugar a 4x4x3x16=768 combinaciones posibles de clasificación probadas, es decir, 768 resultados de indicadores de desempeño.

Cada modelo difuso es optimizado por un algoritmo bioinspirado, y una vez el algoritmo bioinspirado termina, el modelo es optimizado localmente con el método cuasi-Newton.

5.1 Proceso de optimización

La evaluación de un individuo en el proceso de optimización con un algoritmo se hace mediante la construcción de un modelo difuso con los parámetros del individuo y la estructura definida en la función objetivo. Esta función es calculada con las respuestas de clasificación del modelo construido. La Fig. 6 muestra el esquema general que el algoritmo de optimización utiliza para la evaluación de los individuos, siendo el modelo de clasificación un modelo difuso de los 16 propuestos.

Fuente: Los autores.

Fig. 6. ESQUEMA DE EVALUACIÓN DE MODELOS DIFUSOS CON UN ALGORITMO DE OPTIMIZACIÓN

Un modelo difuso de clasificación es la representación funcional de un individuo en la población o un punto en el espacio de soluciones.

La función objetivo establecida es el error cuadrático medio (MSE). Con esta se evalúa el desempeño de todo modelo de clasificación difuso.

La Fig. 7 muestra los pasos que se realizan en un proceso de optimización con cualquier combinación posible probada de conjunto de datos, modelo y algoritmo bioinspirado.

Cada señal de voz se convierte en una serie de valores que se fija con un mecanismo de preprocesamiento de los cuatro definidos en la Subsección 5.3, y de cada serie se extraen las características definidas en la Sección 4; luego se realiza el proceso de optimización de un modelo difuso propuesto, el cual involucra evaluaciones iterativas del mismo. Si el modelo optimizado tiene resultados de desempeño altos, se hace un análisis de su interpretación.

Fuente: Los autores.

Fig. 7. PASOS EN EL PROCESO DE OPTIMIZACIÓN DE UN MODELO DIFUSO

5.2 Estructura de los modelos difusos propuestos

La estructura general de los modelos difusos propuestos se muestra en la Fig. 8.

Fuente: Los autores.

Fig. 8. ESTRUCTURA DE MODELOS DIFUSOS PROPUESTOS

Los rangos de asignación factible de las funciones de pertenencia tienen en cuenta el valor mínimo y máximo por cada una de las entradas para el modelo difuso definidas en la Sección 4. Por ejemplo, para un modelo que utilice las primeras tres entradas, los rangos son los definidos en la ecuación (15).

(15)

Con la normalización de cada uno de estos rangos entre los valores 0 (mínimo) y 1 (máximo), se establece un rango general para todas las entradas y se promueve la exploración factible en los algoritmos de optimización en un espacio fijo de soluciones de acuerdo con los datos procesados.

En este documento se trabaja con modelos difusos tipo Sugeno. Este tipo de modelo tiene ventaja sobre los modelos tipo Mamdani, dado que requiere menos memoria y posee mayor velocidad ⁵⁶. Con este modelo se reduce la complejidad de evaluación por señal de voz, sin perjudicar el propósito de clasificación de género ni la utilidad de la información suministrada por las entradas.

Cada modelo de inferencia difusa produce una única salida compuesta de tres funciones de pertenencia de tipo constante entre 0 y 1. Esta indica el género estimado para una señal de voz, donde 0 representa al género femenino, 0.5 representa un género indefinido, y 1 representa al género masculino.

La forma gaussiana de las funciones de pertenencia es considerada más flexible que la forma triangular, y se aproxima más a los mecanismos de inferencia humanos ⁵⁷^{), (}⁵⁸. A diferencia de las funciones de pertenencia triangulares, estas se definen con dos parámetros: media y varianza.

Se definen tres funciones de pertenencia gaussianas en cada entrada del modelo difuso. Tres se considera el número suficiente de funciones de pertenencia para inducir la interpretabilidad del modelo ²⁸, mantener bajo control la complejidad de este y evitar la redundancia en las funciones de pertenencia.

El número de parámetros que configuran estas funciones de pertenencia es de dos parámetros por cada una de las tres funciones de pertenencia en cada entrada considerada. Así, el valor de parámetros de un sistema difuso, en función de sus entradas, está dado por la ecuación (16).

(16)

Estos parámetros se encuentran en el intervalo para definir la media, y en el intervalo para definir la varianza de cada función de pertenencia. Fuera de estos intervalos se aumenta la probabilidad de obtener funciones de pertenencia redundantes o de poca influencia para las salidas en el modelo optimizado.

El número de reglas de un modelo difuso en función del número de entradas está dado por la ecuación (17).

(17)

Siendo el número de entradas del modelo difuso a optimizar. Estas reglas utilizan el operador AND, para evaluar toda combinación posible de funciones de pertenencia por entrada para su ajuste en el proceso de optimización.

Los modelos difusos propuestos se diferencian principalmente en el conjunto de entradas y la cantidad de estas. La Tabla I muestra los modelos propuestos probados.

Tabla I. MODELOS DIFUSOS PROPUESTOS

Fuente: Los autores.

5.3 Conjuntos de datos propuestos

Se han implementado alteraciones sobre archivos de audio con el fin de atenuar ⁵⁹, segmentar ⁶⁰, detectar silencios ⁵⁰^{), (}⁵¹, y comprimir señales de voz mediante cuantización vectorial ⁶¹. En este artículo, los fragmentos de cada señal normalizada en los que el valor de STE es menor al 1% fueron removidos para evitar el procesamiento innecesario de silencios en el cálculo de sus características.

Para la obtención de los datos se ha establecido un conjunto de 50 archivos de audio con una señal de voz masculina o femenina. El 78% de los archivos de audio son obtenidos de una base de datos ⁶², y el 22% restante fue creado en un entorno arbitrario. Todos los archivos de audio pronuncian una palabra o frase legible. El 50% de los archivos pertenecen a voces masculinas, y el 50% restante a voces femeninas.

Se prueba la optimización con cuatro conjuntos de datos obtenidos de una base de datos de señales de voz, y cuatro mecanismos de preprocesamiento de las señales de audio, con el propósito de variar los valores de entrada sin alterar la base de datos de voces y determinar cuál de estos es clasificado con mayor exactitud. Los cuatro mecanismos de preprocesamiento de señales son:

Procesamiento puro de la señal (sin filtro promediador ni transformada rápida de Fourier).
Procesamiento de la señal aplicando transformada rápida de Fourier.
Procesamiento de la señal con filtro promediador de la señal en 10 períodos anteriores y sin transformada rápida de Fourier.
Procesamiento de la señal con filtro promediador de la señal en 10 períodos anteriores y transformada rápida de Fourier.

Por cada mecanismo se produce un conjunto de datos diferente. Los conjuntos producidos serán identificados como conjuntos 1, 2, 3 y 4, respectivamente.

5.4 Indicadores de desempeño

Los indicadores de desempeño son calculados en cada modelo difuso propuesto y género, y son el medio por el que se determinan los mejores resultados. Estos indicadores son la exactitud pura, la exactitud de acierto y el error cuadrático medio.

Para el cálculo de estos indicadores, toda señal de voz evaluada en un modelo difuso tiene tres valores: género real, género estimado y género definido.

Los valores de género real y género definido son enteros, donde 1 representa el género masculino, y 0 representa el género femenino. El valor de género estimado tiene un valor real que oscila entre estos valores.

El primer indicador, la exactitud pura (EP), es el valor que describe el éxito de clasificación del sistema sin un umbral definido. Mientras mayor sea la diferencia entre las salidas obtenidas (género estimado), y las esperadas (género real), la exactitud pura es menor. Se define mediante la ecuación (18).

(18)

DondeNes el número de señales de voz procesadas y clasificadas por el modelo difuso.

El segundo indicador, la exactitud aproximada o de acierto (EA), a diferencia de la exactitud pura, utiliza el género definido que utiliza un umbral para clasificar la salida como masculina o femenina. El género definido se calcula mediante la ecuación (19).

(19)

Donde el umbralUpara determinar el género es de 0,5. Si la salida final es mayor al umbral, el género será clasificado como masculino, y de otro modo, femenino. La exactitud de acierto se define mediante la ecuación (20).

(20)

El propósito de la EA es concretar un género de acuerdo con la exactitud pura, siendo un indicador dicotómico de acierto o fallo por señal de voz.

El tercer indicador, el error cuadrático medio (MSE), es la media aritmética de la suma de las diferencias entre las salidas esperadas y las salidas obtenidas al cuadrado:

(21)

El MSE es el parámetro más usado en el propósito de prueba de modelos ⁶³, y es usado en este artículo como indicador de desempeño (fitness) en los algoritmos de optimización.

Se busca que el MSE sea el mínimo posible. Si este valor es menor, los indicadores de exactitud tienden a ser mayores y los resultados obtenidos (géneros estimados) se aproximan a los deseados (géneros reales).

5.5 Configuración de los algoritmos de optimización

Para hacer la comparación de resultados entre algoritmos bioinspirados y sus configuraciones, se probó un número de iteraciones de 500, y una población de 20 individuos en todas las configuraciones.

La Tabla II muestra las tres diferentes configuraciones por cada algoritmo bioinspirado.

Tabla II. CONFIGURACIONES DE PARÁMETROS EN ALGORITMOS BIOINSPIRADOS

Fuente: Los autores.

Para el método cuasi-Newton se establece una única configuración con un máximo de 100 iteraciones, y un máximo de 10.000 evaluaciones de la función objetivo.

6. ANÁLISIS DE RESULTADOS

En esta Sección se lista una serie de tablas y gráficas con los resultados de indicadores de desempeño, en las que se establecen los mejores conjuntos de datos y modelos por algoritmo bioinspirado.

6.1 Análisis cuantitativo

Las tablas III a VI resumen los resultados de desempeño en cada opción por cada algoritmo bioinspirado, independientemente del modelo difuso de clasificación.

Los resultados de los mejores modelos difusos de clasificación optimizados encontrados por opción en cada algoritmo son especificados en las tablas VII a X, y se determina la mejor opción y modelo con base en sus indicadores de desempeño.

Los mejores resultados por modelo se muestran en la Tabla XI, con el algoritmo bioinspirado y conjunto de datos utilizado para lograr cada uno de sus indicadores. La Tabla XII muestra los resultados promedio por número de entradas y la Tabla XIII muestra los resultados promedio de los modelos con una entrada en común.

Tabla III. RESULTADOS DE ALGORITMO GA POR OPCIÓN EN CADA CONJUNTO DE DATOS

Fuente: Los autores.

Tabla IV. RESULTADOS DE ALGORITMO HS POR OPCIÓN EN CADA CONJUNTO DE DATOS

Fuente: Los autores.

Tabla V. RESULTADOS DE ALGORITMO DE POR OPCIÓN EN CADA CONJUNTO DE DATOS

Fuente: Los autores.

Tabla VI. RESULTADOS DE PSO POR OPCIÓN EN CADA CONJUNTO DE DATOS

Fuente: Los autores.

Tabla VII. RESULTADOS DE MEJOR MODELO POR OPCIÓN EN GA

Fuente: Los autores.

Tabla VIII. RESULTADOS DE MEJOR MODELO POR OPCIÓN EN HS

Fuente: Los autores.

Tabla IX. RESULTADOS DE MEJOR MODELO POR OPCIÓN EN DE

Fuente: Los autores.

Tabla X. RESULTADOS DE MEJOR MODELO POR OPCIÓN EN PSO

Fuente: Los autores.

Tabla XI. RESULTADOS DE MEJORES MODELOS

Fuente: Los autores.

Tabla XII. PROMEDIO DE RESULTADOS DE MEJORES MODELOS POR NÚMERO DE ENTRADAS

Fuente: Los autores.

Tabla XIII. RESULTADOS PROMEDIO DE MSE POR CARACTERÍSTICA EN MEJORES MODELOS

Fuente: Los autores.

6.2 Análisis cualitativo

En esta Subsección se resumen gráficamente los resultados de la Subsección anterior.

La Fig. 9 muestra el promedio de veces en que el resultado de desempeño de cada conjunto de datos fue mejor que los demás. La Fig. 10 muestra el desempeño por algoritmo bioinspirado. La Fig. 11 muestra el mejor desempeño por opción de cada algoritmo. La Fig. 12 compara los mejores resultados en cada modelo difuso. La Fig. 13 compara el promedio de estos resultados de acuerdo con el número de entradas de los modelos. La Fig. 14 compara el desempeño de las entradas de acuerdo con los mejores resultados de cada modelo difuso.

Fuente: Los autores.

Fig. 9. PROMEDIO DE VECES EN QUE CADA CONJUNTO DE DATOS FUE MEJOR

Fuente: Los autores.

Fig. 10. PROMEDIO DE DESEMPEÑO POR ALGORITMO

Fuente: Los autores.

Fig. 11. COMPARACIÓN DE 1-MSE POR OPCIÓN DE ALGORITMO BIOINSPIRADO

Fuente: Los autores.

Fig. 12. COMPARACIÓN DE MEJORES RESULTADOS DE CADA MODELO DIFUSO

Fuente: Los autores.

Fig. 13. PROMEDIO DE INDICADORES POR NÚMERO DE ENTRADAS DE MODELOS DIFUSOS

Fig. 14. PROMEDIO DE MSE EN MODELOS CON CARACTERÍSTICA

6.3 Análisis de modelos difusos de mayor desempeño

La Fig. 15 muestra los resultados de clasificación de género por voz del primer modelo difuso optimizado propuesto con el que se obtuvo el menor valor de MSE.

Se hace gráficamente evidente que el género estimado se aproxima con precisión al género real, con algunas excepciones en las que se aproxima al valor de umbral establecido (0,5) o al valor del género opuesto.

El criterio del género estimado no logró inferir el género del 8% de las señales de voz, y se equivocó de género en otro 8% de señales de voz. No obstante, el 84% restante de señales de voz fue clasificada con precisión, lo que puede interpretarse como la seguridad intrínseca del modelo difuso y su similitud con la inferencia de un ser humano para la clasificación de género.

Fuente: Los autores.

Fig. 15. RESULTADOS DE CLASIFICACIÓN POR VOZ CON MEJOR MODELO OPTIMIZADO

El primer modelo utiliza las tres primeras entradas definidas en la Sección 4. Las figuras 16, 17 y 18 muestran los valores que conforman la superficie de salida en función del valor de cada par posible de entradas.

Fuente: Los autores.

Fig. 16. SALIDA EN FUNCIÓN DE EE Y STE

Fuente: Los autores.

Fig. 17. SALIDA EN FUNCIÓN DE ZCR Y STE

Fuente: Los autores.

Fig. 18. SALIDA EN FUNCIÓN DE EE Y ZCR

La Fig. 19 muestra los resultados de clasificación de género por voz del segundo mejor modelo difuso optimizado con el que se obtuvo un MSE del 10,9%.

Fuente: Los autores.

Fig. 19. RESULTADOS DE CLASIFICACIÓN POR VOZ CON SEGUNDO MODELO OPTIMIZADO

En este modelo la exactitud de acierto es del 90%, pero el criterio del género estimado tiene menor precisión, lo que lo hace menos confiable para la clasificación.

CONCLUSIONES

De acuerdo con los resultados se han obtenido las siguientes conclusiones:

Los conjuntos de datos de mayor a menor desempeño son 1, 2, 4 y 3. La Fig. 9 permite inferir que el procesamiento de la señal pura es sin duda la mejor opción, y que una señal promediada en 10 períodos anteriores no tiene la información que se requiere en el proceso de clasificación.

El modelo propuesto de mayor desempeño es el número 1, seguido de los modelos 2, 7 y 3. Todos estos usan tres entradas y los conjuntos de datos 1 y 2.

El modelo propuesto de menor desempeño es el número 14, seguido de los modelos 4, 10 y 12. Estos modelos tuvieron mejores resultados con los conjuntos de datos 3 y 4.

Los modelos de más de tres entradas no logran superar a los primeros cuatro mejores modelos. Esto puede atribuirse al tamaño del espacio de búsqueda, debido a que este es proporcional a la cantidad de entradas de un modelo difuso, a pesar de tener una cantidad de datos mayor para la clasificación.

El modelo obtenido de mejor desempeño se obtuvo con algoritmos genéticos en el modelo número 1, tuvo un MSE del 10% y logró una exactitud pura cercana al 88%. Las entradas de mayor influencia para el éxito de clasificación son EE, STE y ZCR.

La exactitud de acierto es un indicador de desempeño del que no se puede asegurar un modelo difuso optimizado con precisión; para este fin se utiliza la exactitud pura.

La entrada que más logra caracterizar el género de una señal de voz es STE. La entrada que menos logra caracterizar el género de una señal de voz es PSC.

Los algoritmos GA, DE y PSO tuvieron desempeños promedio cercanos. DE obtuvo el mejor promedio de indicadores de desempeño.

El algoritmo HS obtuvo el menor desempeño. Esto significa que el número de iteraciones que este requiere para lograr convergencia a mínimos globales debe ser mayor que la de los demás algoritmos.

Las mejores opciones para los algoritmos GA, HS, DE y PSO son las opciones C, C, B y A, respectivamente.

De acuerdo con la interpretación del mejor modelo optimizado, el valor de ZCR tiende a ser menor en voces masculinas.

De acuerdo con la interpretación del mejor modelo optimizado, un valor alto de ZCR junto a un valor bajo de STE describe mejor a las voces femeninas.

Este esquema puede ser utilizado para la clasificación de salidas diferentes al género y su descripción en función de las entradas de los modelos como ventaja de su interpretabilidad.

REFERENCIAS

1. K. Meena, K. Subramaniam and M. Gomathy, “Gender Classification in Speech Recognition using Fuzzy Logic and Neural Network,”The International Arab Journal of Information Technology ,vol. 10 (5), Sept. 2013. [ Links ]

2. T. Jayasankar, K. Vinothkumar and A. Vijayaselvi, “Automatic gender identification in speech recognition by genetic algorithm,”Appl. Math. Inf. Sci ,vol. 11 (3), pp. 907-913, 2017. [ Links ]

3. S. Lakra, J. Singh and A. K. Singh, “Automated pitch-based gender recognition using an adaptive neuro-fuzzy inference system,”in IEEE International Conference on Intelligent Systems and Signal Processing (ISSP), 2013. [ Links ]

4. P. Gupta, S. Goel and A. Purwar, “A stacked technique for gender recognition through voice,”in IEEE Eleventh International Conference on Contemporary Computing (IC3), Noida, India, 2018. [ Links ]

5. P. Kumar, P. Baheti, R. K. Jha, P. Sarmah and K. Sathish, “Voice gender detection using gaussian mixture model,”Journal of Network Communications and Emerging Technologies (JNCET), vol. 8 (4), pp. 132-136, Apr. 2018. [ Links ]

6. M. Gomathy, K. Meena and K. Subramaniam, “Gender clustering and classification algorithms in speech processing: a comprehensive performance analysis,”International Journal of Computer Applications, vol. 51 (20), pp. 9-17, 2012. [ Links ]

7. M. P. Gual, “Voice gender identification using deep neural networks running on FPGA,” B.S. thesis, Fac. d’Inf. de Barcelona (FIB), Univ. Politècnica de Catalunya (UPC), 2016. [ Links ]

8. M. Algabri, M. Alsulaiman, G. Muhammad, M. Zakariah, M. Bencherif and Z. Ali, “Voice and unvoiced classification using fuzzy logic,”Int’l Conf. IP, Comp. Vision, and Pattern Recognition (IPCV’15), pp. 416-420, 2015. [ Links ]

9. G. Sun, Z. Fan, N. E. Mastorakis, S. D. Kaminaris and X. Zhuang, “The complexity analysis of voiced and unvoiced speech signal based on sample entropy,”in IEEE Fourth International Conference on Mathematics and Computers in Sciences and in Industry, 2017. [ Links ]

10. S. Jain, P. Jha and R. Suresh, “Design and implementation of an automatic speaker recognition system using neural and fuzzy logic in matlab,”in 2013 Int. Conf. on Signal Processing and Communication (ICSC), Noida, India, 2013. [ Links ]

11. R. Kiran, K. Nivedha, S. Pavithra Devi and T. Subha, “Voice and speech recognition in Tamil language,”in 2017 Second International Conference on Computing and Communications Technologies (ICCCT’17), 2017. [ Links ]

12. A. Austermann, N. Esau, L. Kleinjohann and B. Kleinjohann, “Fuzzy emotion recognition in natural speech dialogue,” deROMAN 2005. IEEE International Workshop on Robot and Human Interactive Communication, 2005. [ Links ]

13. D. Gharavian, M. Sheikhan, A. Nazerieh and S. Garoucy, “Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network,”Neural Computing and Applications, vol. 21 (8), pp. 2115-2126, May. 2011. [ Links ]

14. D. Panek, A. Skalski and J. Gajda, “Voice pathology detection by fuzzy logic,”in 2015 IEEE Int. Instrumentation and Measurement Technology Conf. (I2MTC) Proc., Pisa, Italy, 2015. [ Links ]

15. H. Cordeiro, C. Meneses and J. Fonseca, “Continuous speech classification systems for voice pathologies identification,”in IFIP AICT, vol. 450, L. Camarinha-Matoset al, 2015, pp. 217-224. [ Links ]

16. A. Asemi, S. S. B. Salim, S. R. Shahamiri, A. Asemi and N. Houshangi, “Adaptive neuro-fuzzy inference system for evaluating dysarthric automatic speech recognition (ASR) systems: a case study on MVML-based ASR,”Springer-Verlag GmbH Germany, part of Springer Nature, Feb. 2018. [ Links ]

17. F. T. Putri, M. Ariyanto, W. Caesarendra, R. Ismail, K. A. Pambudi and E. D. Pasmanasari, “Low cost parkinson’s disease early detection and classification based on voice and electromyography signal,”in Computational Intelligence for Pattern Recognition. Studies in Computational Intelligence, vol. 777, W. Pedrycz and S. Chen, Ed. 2018, pp. 397-426. [ Links ]

18. J. Chen, S. Liu and Z. Chen, “Gender classification in live videos,”in IEEE International Conference on Image Processing, Beijing, China, 2017. [ Links ]

19. G. Amayeh, G. Bebis and M. Nicolescu, “Gender classification from hand shape,”in 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops ,Anchorage, AK, USA, 2008. [ Links ]

20. J. Lei, J. Zhou and M. Abdel-Mottaleb, “Gender classification using automatically detected and aligned 3D ear range data,”in 2013 IEEE International Conference on Biometrics (ICB), Madrid, Spain, 2013. [ Links ]

21 . A. Bansal, R. Agarwal and R. Sharma, “SVM based gender classification using iris images,”in 2012 Fourth International Conference on Computational Intelligence and Communication Networks ,Mathura, India, 2012. [ Links ]

22 . S. S. Lee, H. G. Kim, K. Kim and Y. M. Ro, “Adversarial spatial frequency domain critic learning for age and gender classification,”in 2018 25th IEEE International Conference on Image Processing (ICIP), Athens, Greece, 2018. [ Links ]

23. S. E. Bekhouche, A. Ouafi, A. Benlamoudi, A. Taleb-Ahmed and A. Hadid, “Facial age estimation and gender classification using multi-level local phase quantization,”in 2015 3rd International Conference on Control, Engineering & Information Technology (CEIT), May. 2015. [ Links ]

24. M. Shin, J.-H. Seo and D.-S. Kwon, “Face image-based age and gender estimation with consideration of ethnic difference,”in 2017 26th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), Lisbon, Portugal, 2017. [ Links ]

25. D. Yaman, F. I. Eyiokur, N. Sezgin and H. K. Ekenel, “Age and gender classification from ear images”in 2018 International Workshop on Biometrics and Forensics (IWBF), Sassari, Italy, 2018. [ Links ]

26. P. P. Bonissone, “A fuzzy sets based linguistic approach: theory and applications,”in Proc. of the 1980 Winter Simulation Conf., California, 1980. [ Links ]

27. T. Haider and M. Yusuf, “A fuzzy approach to energy optimized routing for wireless sensor networks,”The Int. Arab Journal of Information Technology (IAJIT) ,vol. 6 (2), pp. 179-185, 2009. [ Links ]

28. M. Gacto, R. Alcalá and F. Herrera, “Interpretability of linguistic fuzzy rule-based systems: An overview of interpretability measures,”Information Sciences, vol. 181, pp. 4340-4360, 2011. [ Links ]

29. C. Carlsson, “On the relevance of fuzzy sets in analytics,”in On fuzziness, Studies in fuzziness and soft computing 298, vol. 1, pp. 83-89, 2013. [ Links ]

30. T. R. Razak, J. M. Garibaldi, C. Wagner, A. Pourabdollah and D. Soria, “Interpretability and complexity of design in the creation of fuzzy logic systems - a user study,”in IEEE Symposium Series on Computational Intelligence (SSCI), pp. 420-426, 2018. [ Links ]

31. J. P. Carvalho, F. Batista and L. Coheur, “A critical survey on the use of fuzzy sets in speech and natural language processing,” in2012 IEEE World Congress on Computational Intelligence (WCCI), Brisbane, Australia, Jun. 2012. [ Links ]

32. H.-N. L. Teodorescu, “A retrospective assessment of fuzzy logic applications in voice communications and speech analytics,”International Journal of Computers Communications & Control (IJCCC), pp. 865-872, Dec. 2015. [ Links ]

33. C. E. Borges and J. L. Montaña, “Algoritmos bioinspirados,”, 2011 (Online). Available: Available: https://docplayer.es/2484561-Algoritmos-bioinspirados.html . (Accessed: 1-Oct-2018). [ Links ]

34. S. Forrest, “Genetic algorithms: Principles of natural selection applied to computation,”in Science, vol. 261(5123), pp. 872-878, Aug. 1993. [ Links ]

35. M. Mitchell,An introduction to genetic algorithms, Cambridge, Massachusetts. London, England: A Bradford Book The MIT Press, 1996. [ Links ]

36. T. Weise,Global optimization algorithms. Theory and application ,2009. [ Links ]

37. Z. W. Geem, J. H. Kim and G. V. Loganathan, “A new heuristic optimization algorithm: Harmony search,”Simulation, vol. 76 (2), pp. 60-68, 2001. [ Links ]

38. Z. W. Geem, “Global optimization using harmony search: Theoretical foundations and applications,”Studies in computacional intelligence, vol. 203, pp. 57-73, 2009. [ Links ]

39. R. Storn and K. Price, “Differential Evolution - A simple and efficient adaptive scheme for global optimization over continuous spaces,”Journal of Global Optimization, vol. 11 (4), pp. 341-359, 1997. [ Links ]

40. J. Kennedy and R. Eberhart, “Particle swarm optimization,”in Proc. of the IEEE Int. Conf. on Neural Networks, vol. 8 (3), pp. 1943-1948, 1995. [ Links ]

41. J. C. Bansal, P. K. Singh, M. Saraswat, A. Verma, S. S. Jadon and A. Abraham, “Inertia weight strategies in particle swarm optimization,”in 2011 Third World Congress on Nature and Biologically Inspired Computing (NaBIC), pp. 633-640, 2011. [ Links ]

42. Y. Shi and R. C. Eberhart, “Empirical study of particle swarm optimization,” inProc. of IEEE Int. Conf. on Evolutionary Computation., vol. 3, pp. 1945-1950, 1999. [ Links ]

43. J. Nocedal and S. J. Wright, Numerical optimization, 2 ed., Berlin, Nueva York: Springer Verlag, 2006. [ Links ]

44. D. F. Shanno and K. H. Phua, “Effective comparison of unconstrained optimization techniques,”Management science, vol. 22 (3), pp. 321-330, Nov. 1975. [ Links ]

45. M. Contreras and R. A. Tapia, “Sizing the BFGS and DFP updates: A numerical study,”Optim. Theory Appl., vol. 78, pp. 93-108, 1993. [ Links ]

46. F. Rong, “Audio classification method based on machine learning,”in 2016 International Conference on Intelligent Transportation, Big Data & Smart City, 2017. [ Links ]

47. A. DeMarco and S. J. Cox, “An accurate and robust gender identification algorithm,”Journal of Neuroscience Methods ,vol. 172 (1), pp. 122-130, 2008. [ Links ]

48. D. E. Rey Lancheros, H. J. Gavilán Acosta y H. E. Espitia Cuchango, “Implementación de un algoritmo para la identificación de usuarios considerando problemas fisiológicos que afectan el habla,”Revista ITECKNE, vol. 14 (2), pp. 131-139, 2017. https://doi.org/10.15332/iteckne.v14i2.1767 [ Links ]

49. T. T. Swee, S. H. S. Salleh and M. R. Jamaludin, “Speech pitch detection using short-time energy,”in International Conference on Computer and Communication Engineering (ICCCE) ,Kuala Lumpur, Malasia, 2010. [ Links ]

50. G. Saha, S. Chakroborty and S. Senapati, “A new silence removal and endpoint detection algorithm for speech and speaker recognition applications,”Indian Institute of Technology Kharagpur ,Kharagpur, India, 2005. [ Links ]

51. D. Ortiz P, L. F. Villa, C. Salazar and O. L. Quintero, “A simple but efficient voice activity detection algorithm through Hilbert transform and dynamic threshold for speech pathologies,”in 20th Argentinean Bioengineering Society Congress (SABI 2015), 2016. [ Links ]

52. E. Schubert and J. Wolfe, “Does timbral brightness scale with frequency and spectral centroid,”Acta Acustica united with Acustica, vol. 92, pp. 820-825, 2006. [ Links ]

53. J. M. Grey and J. W. Gordon, “Perceptual effects of spectral modifications on musical timbres,”The Journal of the Acoustical Society of America (JASA), vol. 63, pp. 1493-1500, 1978. [ Links ]

54. R. Thiruvengatanadhan, P. Dhanalakshmi and S. Palanivel, “GMM based indexing and retrieval of music using MFCC and MPEG-7 features,”in Proceedings of the 49th Annual Conference of the Computer Society of India (CSI), Chidambaram, Tamil Nadu, India, 2015. [ Links ]

55. B. Wu, A. Horner and C. Lee, “Musical timbre and emotion: The identification of salient timbral features in sustained musical instrument tones equalized in attack time and spectral centroid,”in Proc. of 40th International Computer Music Conference (ICMC) 2014 and 11th Sound and Music Computing Conference (SMC), Athens, Greece, 2014. [ Links ]

56. T. Uzunović, S. Konjicija and I. Turković, “Adjustment of fuzzy reasoning for implementation on microcontroller,”in 2011 18th International Conference on Systems, Signals and Image Processing, Sarajevo, Bosnia-Herzegovina, Jan. 2011. [ Links ]

57. I. A. Hameed, “Using Gaussian membership functions for improving the reliability and robustness of students’ evaluation systems,”Expert Systems with Applications, vol. 38, p. 7135-7142, 2011. [ Links ]

58. Liu, Xiang-Jie; Zhou, Xiao-Xin , “Structural analysis of fuzzy controller with gaussian membership function,”in 14th World Congress of International Federation of Automatic Control (IFAC), Beijing, China, 1999. [ Links ]

59. W. Meiniar, F. A. Afrida, A. Irmasari, A. Mukti and D. Astharini, “Human voice filtering with band-stop filter design in MATLAB,”in 2017 International Conference on Broadband Communication, Wireless Sensors and Powering (BCWSP) ,Jakarta, Indonesia, 2017. [ Links ]

60. G. K. Berdibaeva, O. N. Bodin, V. V. Kozlov, D. I. Nefed’ev, K. A. Ozhikenov and Y. A. Pizhonkov, “Pre-processing voice signals for voice recognition systems,”in 18th Int. Conf. of Young Specialists on Micro/Nanotechnologies and Electron Devices (EDM), 2017. [ Links ]

61. M. Suell Dutra, C. H. Valencia Niño, S. García y Rodolfo, “Codificación y compresión de señales de voz con cuantización vectorial no determinística,”Revista ITECKNE, vol. 6 (1), pp. 14-19, Jun. 2009. https://doi.org/10.15332/iteckne.v6i1.291 [ Links ]

62. ”Wavsource,” (Online). Available: Available: wavsource.com/people/people.htm . (Accessed: 15-Sep-2018). [ Links ]

63. F. R. Jiménez López, C. E. Pardo Beainy and E. A. Gutiérrez Cáceres, “Adaptive filtering implemented over TMS320c6713 DSP platform for system identification,”Revista ITECKNE ,vol. 11 (2), pp. 157-171, Dec. 2014. https://doi.org/10.15332/iteckne.v11i2.726 [ Links ]

Recibido: 25 de Febrero de 2019; Aprobado: 16 de Mayo de 2019

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons

Services on Demand

Journal

Article

Indicators

Related links

Share

Iteckne

Print version ISSN 1692-1798

Iteckne vol.16 no.2 Bucaramanga July/Dec. 2019

https://doi.org/10.15332/iteckne.v16i2.2356