ParoleNet is a multimodal model for predicting turn-taking in conversations. Its primary objective is to determine, at the end of a given sentence, whether the current speaker will continue speaking or yield the floor to their interlocutor. It takes as input the last 20 words of the sentence and the final two seconds of the audio recording, performing classification into two turn-taking classes.
🔍 Key Highlights:
- Trained on a specific French-language dataset containing 16,400 sentences.
- Achieved promising results surpassing random initialization, indicating the model's ability to anticipate turn-taking.
- Statistical analysis suggests the model understands the relationship between input data and turn-taking prediction, rather than relying solely on frequency-based predictions.
- Demonstrates significant learning, validating the effectiveness of our approach.
- ParoleNet
- Présentation du problème et des données - Figure 1 - Tableau du dataset.
- Présentation du modèle - Figure 2 - Schéma du modèle.
- Métrique et apprentissage
- Résultats et discussion - Figure 3 - Résultats du modèle initialisé au hasard. - Figure 4 - Résultats du modèle à la fin de l’apprentissage.
- Conclusion
ParoleNet est un modèle multimodal de prédiction du tour de parole. Son objectif principal est de déterminer, à la fin d’une phrase donnée, si la personne en cours d’élocution continuera de parler ou cédera la parole à son interlocuteur. Il prend en entrée les 20 derniers mots de la phrase ainsi que les deux dernières secondes de l'enregistrement audio et réalise la classification sur deux classes du tour de parole. ParoleNet a été entraîné sur un jeu de données spécifique de la langue française contenant 16400 phrases. Nous avons observé des résultats encourageants, où le modèle a appris à anticiper le tour de parole avec une performance supérieure à un modèle initialisé au hasard. L’analyse des résultats statistiques suggère que le modèle est capable de comprendre un lien entre les données d’entrée et la prédiction du tour de parole, et non uniquement une prédiction statistique sur la fréquence de chaque classe décorrélée des données d'entrées. Ces observations indiquent un apprentissage significatif du modèle, renforçant ainsi la validité de notre approche.
L’objet de la problématique réside dans la prédiction de l’attribution de la parole au cours d’une discussion. Notre champ d’étude se restreindra à un dialogue impliquant deux participants. Nous sommes ainsi confrontés à une problématique de classification à deux classes :
Les données que nous allons utiliser sont présentées de manière détaillée dans le tableau en Figure 1 ci-dessous. Les colonnes que nous allons utiliser sont : "stop" qui permet de récupérer le timecode de la fin de la phrase, "text" qui permet de récupérer ce qui vient d’être prononcé avant le timecode, "turn_after" qui indique si la personne va céder la parole ou non.
Le dataloader a été conçu de manière à générer des exemples composés de trois éléments distincts. Le premier élément consiste en un texte formé par les 20 derniers mots prononcés dans la phrase. En cas de phrase plus courte, un caractère de padding de l’encodeur textuel est ajouté pour maintenir la structure. Le deuxième élément est constitué de la dernière seconde prononcée avant la fin de la phrase dans le fichier audio. Cette caractéristique vise à représenter le ton final de la phrase, que ce soit montant ou descendant, par exemple. Enfin, le dernier élément correspond au label, à savoir la valeur de la classe, soit
Le modèle élaboré est exposé dans la Figure 2. Il se compose d’une première phase d’encodage des données, utilisant Wave2Vec2 pour les données audio et Camembert pour les données textuelles. Chacun de ces composants fait appel à un processeur dédié pour le traitement préliminaire des données avant leur encodage. Un processus de padding est appliqué entre les étapes de traitement et d’encodage afin d’assurer la cohérence du flux de données. Les encodeurs génèrent des tenseurs de features, qui sont ensuite aplatis avant d’être concaténés en un unique tenseur unidimensionnel, conservant ainsi une taille constante.
Après l’extraction du tenseur, le modèle le transmet à une cascade de couche dense, de fonction d’activation ReLU et de dropout de 10%. Sur la sortie est appliquée un softmax, ce processus représente ainsi une prédiction exprimée sous forme de probabilité pour les deux classes.
Dans le cadre de la résolution de notre problème de classification, il semble judicieux d’envisager l’utilisation d’une fonction de perte de cross entropie. Les tests que nous avons effectués montrent que le modèle a tendance à rapidement converger vers la classification d’une seule classe, indépendamment de l’exemple présenté, en l’occurrence la classe
Dans le calcul de la précision et du rappel, nous avons recouru aux valeurs de probabilités attribuées pour déterminer les vrais positifs, les faux positifs et les faux négatifs. Plus précisément, si le modèle attribue une probabilité de
Nous avons entrainé le modèle sur le jeu de donnée présenté en section 2. Voici donc les résultats obtenus en Figure 3 et 4, ici en tenant compte de la prédiction par argmax :
Classe | Precision | Rappel | |
---|---|---|---|
0 | 82.81 | 100.00 | 90.60 |
1 | 0.00 | 0.00 | 0.00 |
Classe | Precision | Rappel | |
---|---|---|---|
0 | 85.66 | 75.40 | 80.21 |
1 | 32.14 | 48.00 | 38.50 |
Le
En conclusion, notre étude sur la prédiction de l’attribution de la parole dans un dialogue à deux participants a révélé des résultats prometteurs, démontrant la capacité du modèle à anticiper le tour de parole avec une performance supérieure à un modèle initialisé au hasard. L’analyse approfondie des résultats suggère une compréhension significative du lien entre les données d’entrée et la prédiction du tour de parole. Cependant, malgré ces avancées, des perspectives d’amélioration subsistent. Il est crucial d’explorer davantage les mécanismes internes du modèle pour garantir que l’apprentissage ne se limite pas à une simple corrélation statistique. Nous sommes confiants dans la solidité de la métrique qui a été utilisée, mais elle doit être explorée d’avantage.