Deep learning applied to speech processing: development of novel models and techniques

Carofilis Vasco, Roberto Andrés

doi:10.18002/10612/18582

Título

Deep learning applied to speech processing: development of novel models and techniques

Autor

Carofilis Vasco, Roberto Andrés

Director/es

Alegre Gutiérrez, Enrique

Fernández Robles, Laura

Facultad/Centro

Escuela de Ingenierias Industrial, Informática y Aeroespacial

Área de conocimiento

Ingenieria de Sistemas y Automatica

Cita Bibliográfica

Carofilis Vasco, R.A. (2023). Deep learning applied to speech processing: development of novel models and techniques

Fecha

2023-11-11

Resumen

[EN] This thesis proposes and evaluates new machine learning techniques and models for different tasks in the field of speech processing. It mainly addresses the identification of speakers, languages, and accents using several descriptor proposals based on different sound representations. In addition, it presents a new transfer learning technique based on a new descriptor, and two new architectures for deep learning models based on complementary audio representations. The new transfer learning technique is based on a descriptor we call Grad-Transfer, which is based on the model interpretability method Gradient-weighted Class Activation Mapping (Grad-CAM). Grad-CAMgenerates a heatmap of the most relevant zones in the input data according to their influence on a given model prediction. For the development of Grad-Transfer, we experimentally demonstrate, using Birch and k-means clustering algorithms, that the heat maps generated by the Grad-CAM method are able to store part of the knowledge acquired by a deep learning speech processing model fed by spectrograms during its training process. We exploited this capability of Grad-CAM to formulate a new technique that transfers knowledge from a pre-trained model to an untrained one, through the Grad-Transfer descriptor, which is responsible for summarizing and reusing such knowledge. Several Grad-Transfer-basedmodels were evaluated for the accent identification task using the Voice Cloning Toolkit dataset. These models include Gaussian Naive Bayes, Support Vector Machines, and Passive Aggressive classifiers. Experimental results show an increase in performance of up to 23.58% in models fed by Grad-Transfer descriptors and spectrograms compared to models fed by spectrograms alone. This demonstrates the ability of Grad-Transfer to improve the performance of speech processing models and opens the door to new implementations for similar tasks. On the other hand, new transfer learning approaches based on embedding generation models were evaluated. Embeddings are generated by machine learning models trained for a specific task on large datasets. By exploiting the knowledge already acquired, these models can be reused for new tasks where the amount of available data is small. This thesis proposes a new architecture for deep learning models, called Mel and Wave Embeddings for Human Voice Tasks (MeWEHV), capable of generating robust embeddings for speech processing. MeWEHV combines embeddings generated by a pretrained wave encoder model fed with raw audio and deep features extracted fromMel Frequency Cepstral Coefficients (MFCCs) using convolutional neural networks. We demonstrated the complementarity between the two representations and exploited it through neural layers specifically designed for their combination. We evaluated the performance of MeWEHV on three tasks: language identification, accent identification, and speaker identification. For the first task, we used the VoxForge and Common Language datasets. For the accent identification task, we used the Latin American Spanish Corpora and Common Voice datasets. Finally, for the speaker identification task, we used the VoxCeleb1 dataset and created YouSpeakers204, a new publicly available dataset for English speaker identification. YouSpeakers204 contains 19607 audio clips from 204 speakers with six different accents, allowing other researchers to work with a highly balanced dataset and build new models that are robust to multiple accents. This approach significantly improved the performance of the most advanced state-of-the-art models in all evaluated datasets, obtaining improvements of up to 88.27% in speaker identification, 14.86% in language identification, and 20.38% in accent identification. This was achieved at a low additional computational cost, with only 1.04M additional parameters, which represents between 0.33% and 1.09% more parameters than the pre-trained models used as a baseline. In addition, a second architecture based on embedding generation models, called Squeeze-and-excitation for Embeddings Network (SaEENet), is proposed. SaEENet employs 1D depthwise separable convolution layers, GRU layers, and introduces, for the first time, the use of squeeze-and-excitation blocks for audio embedding weighting. The use of squeeze-and-excitation allows the model to assign a higher or lower relevance to each embedding generated from small audio segments, thus discarding information generated from voiceless segments or segments with non-relevant information. Furthermore, for the same architecture, we present experimental results using three different variations of squeeze-and-excitation blocks, identifying the most useful ones for the evaluated tasks. SaEENet outperforms MeWEHV and similar state-of-the-art models in the tasks of language identification, accent identification and speaker identification, achieving improvements of up to 0.90%, 1.41% and 4.01%, respectively, with 31.73% fewer trainable parameters than MEWHEV. Overall, this thesis involves several advances in the areas of speaker, language, and accent identification, and proposes new techniques andmodels that use transfer learning to improve the performance of the state-of-the-art models evaluated.

[ES] Esta tesis propone y evalúa nuevas técnicas y modelos de aprendizaje automático en diferentes tareas dentro del campo del procesamiento del habla. Aborda principalmente la identificación de hablantes, idiomas y acentos, utilizando varias propuestas de descriptores basados en diversas representaciones del sonido. Además, presenta una nueva técnica de aprendizaje por transferencia basada en un nuevo descriptor, y dos nuevas arquitecturas para modelos de aprendizaje profundo basadas en representaciones de audio complementarias. La nueva técnica de aprendizaje por transferencia se basa en un descriptor al que hemos denominado Grad-Transfer y que está basado en el método de interpretabilidad de modelosGradient-weighted Class ActivationMapping (Grad-CAM).Grad-CAMgenera un mapa de calor de las zonasmás relevantes en los datos de entrada, según su influencia en una determinada predicción de un modelo. Para el desarrollo de Grad-Transfer demostramos experimentalmente, mediante los algoritmos de clustering Birch y k-means, que los mapas de calor generados por el método Grad-CAM son capaces de almacenar parte del conocimiento adquirido por un modelo de aprendizaje profundo de procesamiento del habla alimentado por espectrogramas, durante su proceso de entrenamiento. Aprovechamos esta capacidad de Grad-CAM para desarrollar una nueva técnica que transfiere conocimiento de un modelo preentrenado a uno sin entrenar, a través del descriptor Grad-Transfer encargado de resumir y reutilizar dicho conocimiento. Se evaluaron diversosmodelos basados en Grad-Transfer para la tarea de identificación de acentos, usando el conjunto de datos Voice Cloning Toolkit. Entre estos modelos se encuentran los Gaussian Naive Bayes, Support VectorMachines, y clasificadores Passive Aggressive. Los resultados experimentales muestran un incremento de hasta el 23,58% en el rendimiento en los modelos alimentados por descriptores Grad-Transfer y espectrogramas, en comparación de los modelos alimentados únicamente por espectrogramas. Esto demuestra que Grad-Transfer es capaz de mejorar el rendimiento de los modelos de procesamiento de voz y abre la puerta a nuevas implementaciones en tareas similares. Por otra parte, se evaluaron nuevas aproximaciones de aprendizaje por transferencia basadas en modelos de generación de embeddings. Los embeddings son creados mediante modelos de aprendizaje automático entrenados en una tarea específica con grandes conjuntos de datos. Aprovechando los conocimientos ya adquiridos, estos modelos pueden reutilizarse en nuevas tareas en las que la cantidad de datos disponibles es reducida. Esta tesis propone una nueva arquitectura para modelos de aprendizaje profundo, denominada Mel and Wave Embeddings for Human Voice Tasks (MeWEHV), capaz de generar embeddings robustos para el procesamiento del habla. MeWEHV combina los embeddings generados por un modelo wave encoder, preentrenado, alimentado por audio en bruto y características profundas extraídas de los Mel Frequency Cepstral Coefficients (MFCCs) mediante redes neuronales convolucionales. Su objetivo es demostrar experimentalmente la complementariedad entre ambas representaciones, y aprovecharla mediante capas neuronales específicamente diseñadas para su combinación. Evaluamos el rendimiento de MeWEHV en tres tareas: identificación de idiomas, identificación de acentos, e identificación de hablantes. Para la primera, utilizamos los conjuntos de datos VoxForge y Common Language. Para evaluar la tarea de identificación de acentos utilizamos los conjuntos de datos Latin American Spanish Corpora y Common Voice. Por último, para la tarea de identificación de hablantes utilizamos el conjunto de datos VoxCeleb1 y presentamos YouSpeakers204, un nuevo conjunto de datos puesto a disponibilidad del público para la identificación de hablantes de inglés. YouSpeakers204 contiene 19607 clips de audio de 204 personas que hablan con seis acentos diferentes, lo que permite a otros investigadores trabajar con un conjunto de datos altamente balanceado y crear nuevos modelos que sean robustos a múltiples acentos. Nuestro enfoque permite aumentar significativamente el rendimiento de los modelos más avanzados del estado del arte, en todos los conjuntos de datos evaluados, consiguiendo una mejora de hasta el 88,27% en identificación de hablantes, 14,86% en identificación de idiomas, y 20,38% en identificación de acentos. Necesitando para ello un bajo coste computacional adicional, al tener únicamente 1,04M parámetros adicionales, lo que representa entre un 0,33% y 1,09% más parámetros que los modelos preentrenados usados como baseline. Adicionalmente, se propone una segunda arquitectura basada en modelos de generación de embeddings, llamada Squeeze-and-excitation for Embeddings Network (SaEENet). SaEENet emplea capas 1D depthwise separable convolutions, capas GRU, e introduce, por primera vez, el uso de bloques squeeze-and-excitation para la ponderación de embedddings de audio. El uso de squeeze-and-excitation permite al modelo asignar una relevancia mayor o menor a cada embedding generado a partir de pequeños segmentos de audio y descartar así la información generada a partir de segmentos sin voz o segmentos con información no relevante. Además, para esta misma arquitectura, presentamos resultados experimentales utilizando tres variaciones distintas de bloques squeeze-andexcitation, identificando, de esta forma, las más útiles para las tareas evaluadas. SaEENet supera aMeWEHV y a modelos similares del estado del arte en las tareas de identificación de idiomas, identificación de acentos e identificación de hablantes, logrando una mejora de hasta el 0,90%, 1,41% y 4,01%, respectivamente, con un 31,73% menos de parámetros entrenables que MEWHEV. En conjunto, esta tesis presenta varios avances en las áreas de identificación de hablantes, idiomas y acentos, y propone nuevas técnicas y modelos que utilizan el aprendizaje por transferencia para mejorar el rendimiento de los modelos del estado del arte evaluados.

Materia

Ingeniería de sistemas

Palabras clave

URI

https://hdl.handle.net/10612/18582

DOI

10.18002/10612/18582

Aparece en las colecciones