Compartir
Título
Deep learning applied to speech processing: development of novel models and techniques
Autor
Director/es
Facultad/Centro
Área de conocimiento
Cita Bibliográfica
Carofilis Vasco, R.A. (2023). Deep learning applied to speech processing: development of novel models and techniques
Fecha
2023-11-11
Resumen
[EN] This thesis proposes and evaluates new machine learning techniques and models for different tasks in the field of speech processing. It mainly addresses the identification of speakers, languages, and accents using several descriptor proposals based on different sound representations. In addition, it presents a new transfer learning technique based on a new descriptor, and two new architectures for deep learning models based on complementary audio representations. The new transfer learning technique is based on a descriptor we call Grad-Transfer, which is based on the model interpretability method Gradient-weighted Class Activation Mapping (Grad-CAM). Grad-CAMgenerates a heatmap of the most relevant zones in the input data according to their influence on a given model prediction. For the development of Grad-Transfer, we experimentally demonstrate, using Birch and k-means clustering algorithms, that the heat maps generated by the Grad-CAM method are able to store part of the knowledge acquired by a deep learning speech processing model fed by spectrograms during its training process. We exploited this capability of Grad-CAM to formulate a new technique that transfers knowledge from a pre-trained model to an untrained one, through the Grad-Transfer descriptor, which is responsible for summarizing and reusing such knowledge. Several Grad-Transfer-basedmodels were evaluated for the accent identification task using the Voice Cloning Toolkit dataset. These models include Gaussian Naive Bayes, Support Vector Machines, and Passive Aggressive classifiers. Experimental results show an increase in performance of up to 23.58% in models fed by Grad-Transfer descriptors and spectrograms compared to models fed by spectrograms alone. This demonstrates the ability of Grad-Transfer to improve the performance of speech processing models and opens the door to new implementations for similar tasks. On the other hand, new transfer learning approaches based on embedding generation models were evaluated. Embeddings are generated by machine learning models trained for a specific task on large datasets. By exploiting the knowledge already acquired, these models can be reused for new tasks where the amount of available data is small. This thesis proposes a new architecture for deep learning models, called Mel and Wave Embeddings for Human Voice Tasks (MeWEHV), capable of generating robust embeddings for speech processing. MeWEHV combines embeddings generated by a pretrained wave encoder model fed with raw audio and deep features extracted fromMel Frequency Cepstral Coefficients (MFCCs) using convolutional neural networks. We demonstrated the complementarity between the two representations and exploited it through neural layers specifically designed for their combination. We evaluated the performance of MeWEHV on three tasks: language identification, accent identification, and speaker identification. For the first task, we used the VoxForge and Common Language datasets. For the accent identification task, we used the Latin American Spanish Corpora and Common Voice datasets. Finally, for the speaker identification task, we used the VoxCeleb1 dataset and created YouSpeakers204, a new publicly available dataset for English speaker identification. YouSpeakers204 contains 19607 audio clips from 204 speakers with six different accents, allowing other researchers to work with a highly balanced dataset and build new models that are robust to multiple accents. This approach significantly improved the performance of the most advanced state-of-the-art models in all evaluated datasets, obtaining improvements of up to 88.27% in speaker identification, 14.86% in language identification, and 20.38% in accent identification. This was achieved at a low additional computational cost, with only 1.04M additional parameters, which represents between 0.33% and 1.09% more parameters than the pre-trained models used as a baseline. In addition, a second architecture based on embedding generation models, called Squeeze-and-excitation for Embeddings Network (SaEENet), is proposed. SaEENet employs 1D depthwise separable convolution layers, GRU layers, and introduces, for the first time, the use of squeeze-and-excitation blocks for audio embedding weighting. The use of squeeze-and-excitation allows the model to assign a higher or lower relevance to each embedding generated from small audio segments, thus discarding information generated from voiceless segments or segments with non-relevant information. Furthermore, for the same architecture, we present experimental results using three different variations of squeeze-and-excitation blocks, identifying the most useful ones for the evaluated tasks. SaEENet outperforms MeWEHV and similar state-of-the-art models in the tasks of language identification, accent identification and speaker identification, achieving improvements of up to 0.90%, 1.41% and 4.01%, respectively, with 31.73% fewer trainable parameters than MEWHEV. Overall, this thesis involves several advances in the areas of speaker, language, and accent identification, and proposes new techniques andmodels that use transfer learning to improve the performance of the state-of-the-art models evaluated. [ES] Esta tesis propone y evalúa nuevas técnicas y modelos de aprendizaje automático en
diferentes tareas dentro del campo del procesamiento del habla. Aborda principalmente
la identificación de hablantes, idiomas y acentos, utilizando varias propuestas de descriptores
basados en diversas representaciones del sonido. Además, presenta una nueva
técnica de aprendizaje por transferencia basada en un nuevo descriptor, y dos nuevas arquitecturas
para modelos de aprendizaje profundo basadas en representaciones de audio
complementarias.
La nueva técnica de aprendizaje por transferencia se basa en un descriptor al que hemos
denominado Grad-Transfer y que está basado en el método de interpretabilidad de
modelosGradient-weighted Class ActivationMapping (Grad-CAM).Grad-CAMgenera un
mapa de calor de las zonasmás relevantes en los datos de entrada, según su influencia en
una determinada predicción de un modelo. Para el desarrollo de Grad-Transfer demostramos
experimentalmente, mediante los algoritmos de clustering Birch y k-means, que
los mapas de calor generados por el método Grad-CAM son capaces de almacenar parte
del conocimiento adquirido por un modelo de aprendizaje profundo de procesamiento
del habla alimentado por espectrogramas, durante su proceso de entrenamiento. Aprovechamos
esta capacidad de Grad-CAM para desarrollar una nueva técnica que transfiere
conocimiento de un modelo preentrenado a uno sin entrenar, a través del descriptor
Grad-Transfer encargado de resumir y reutilizar dicho conocimiento. Se evaluaron diversosmodelos
basados en Grad-Transfer para la tarea de identificación de acentos, usando
el conjunto de datos Voice Cloning Toolkit. Entre estos modelos se encuentran los Gaussian
Naive Bayes, Support VectorMachines, y clasificadores Passive Aggressive. Los resultados
experimentales muestran un incremento de hasta el 23,58% en el rendimiento en
los modelos alimentados por descriptores Grad-Transfer y espectrogramas, en comparación
de los modelos alimentados únicamente por espectrogramas. Esto demuestra que
Grad-Transfer es capaz de mejorar el rendimiento de los modelos de procesamiento de
voz y abre la puerta a nuevas implementaciones en tareas similares.
Por otra parte, se evaluaron nuevas aproximaciones de aprendizaje por transferencia
basadas en modelos de generación de embeddings. Los embeddings son creados mediante
modelos de aprendizaje automático entrenados en una tarea específica con grandes conjuntos de datos. Aprovechando los conocimientos ya adquiridos, estos modelos pueden
reutilizarse en nuevas tareas en las que la cantidad de datos disponibles es reducida.
Esta tesis propone una nueva arquitectura para modelos de aprendizaje profundo,
denominada Mel and Wave Embeddings for Human Voice Tasks (MeWEHV), capaz de
generar embeddings robustos para el procesamiento del habla. MeWEHV combina los
embeddings generados por un modelo wave encoder, preentrenado, alimentado por audio
en bruto y características profundas extraídas de los Mel Frequency Cepstral Coefficients
(MFCCs) mediante redes neuronales convolucionales. Su objetivo es demostrar
experimentalmente la complementariedad entre ambas representaciones, y aprovecharla
mediante capas neuronales específicamente diseñadas para su combinación. Evaluamos
el rendimiento de MeWEHV en tres tareas: identificación de idiomas, identificación
de acentos, e identificación de hablantes. Para la primera, utilizamos los conjuntos de
datos VoxForge y Common Language. Para evaluar la tarea de identificación de acentos
utilizamos los conjuntos de datos Latin American Spanish Corpora y Common Voice. Por
último, para la tarea de identificación de hablantes utilizamos el conjunto de datos VoxCeleb1
y presentamos YouSpeakers204, un nuevo conjunto de datos puesto a disponibilidad
del público para la identificación de hablantes de inglés. YouSpeakers204 contiene 19607
clips de audio de 204 personas que hablan con seis acentos diferentes, lo que permite
a otros investigadores trabajar con un conjunto de datos altamente balanceado y crear
nuevos modelos que sean robustos a múltiples acentos.
Nuestro enfoque permite aumentar significativamente el rendimiento de los modelos
más avanzados del estado del arte, en todos los conjuntos de datos evaluados, consiguiendo
una mejora de hasta el 88,27% en identificación de hablantes, 14,86% en identificación
de idiomas, y 20,38% en identificación de acentos. Necesitando para ello un
bajo coste computacional adicional, al tener únicamente 1,04M parámetros adicionales,
lo que representa entre un 0,33% y 1,09% más parámetros que los modelos preentrenados
usados como baseline.
Adicionalmente, se propone una segunda arquitectura basada en modelos de generación
de embeddings, llamada Squeeze-and-excitation for Embeddings Network (SaEENet).
SaEENet emplea capas 1D depthwise separable convolutions, capas GRU, e introduce,
por primera vez, el uso de bloques squeeze-and-excitation para la ponderación de
embedddings de audio. El uso de squeeze-and-excitation permite al modelo asignar una
relevancia mayor o menor a cada embedding generado a partir de pequeños segmentos
de audio y descartar así la información generada a partir de segmentos sin voz o segmentos
con información no relevante. Además, para esta misma arquitectura, presentamos
resultados experimentales utilizando tres variaciones distintas de bloques squeeze-andexcitation,
identificando, de esta forma, las más útiles para las tareas evaluadas. SaEENet
supera aMeWEHV y a modelos similares del estado del arte en las tareas de identificación
de idiomas, identificación de acentos e identificación de hablantes, logrando una mejora
de hasta el 0,90%, 1,41% y 4,01%, respectivamente, con un 31,73% menos de parámetros
entrenables que MEWHEV.
En conjunto, esta tesis presenta varios avances en las áreas de identificación de hablantes,
idiomas y acentos, y propone nuevas técnicas y modelos que utilizan el aprendizaje
por transferencia para mejorar el rendimiento de los modelos del estado del arte
evaluados.
Materia
Palabras clave
URI
DOI
Aparece en las colecciones
- Tesis [1353]
Ficheros en el ítem
Tamaño:
431.3
xmlui.dri2xhtml.METS-1.0.size-kilobytes
Formato:
Adobe PDF