Quand quatre EPITéens analysent les sentiments via le deep learning

Quand quatre EPITéens analysent les sentiments via le deep learning

Début juin, Zinedine Rebiai (EPITA promo 2019) s’envolait pour les États-Unis afin de présenter les travaux menés avec ses camardes Simon Andersen, Antoine Debrenne et Victor Lafargue au sein de la Majeure Data Science et Intelligence Artificielle (SCIA). Sélectionné lors la compétition internationale de recherche SemEval Microsoft-SIGLEX, leur premier papier de recherche pouvait ainsi être expliqué directement aux nombreux experts en Intelligence Artificielle présents lors de la conférence finale se déroulant à Minneapolis. Une expérience enrichissante pour ce futur ingénieur.



Un détecteur d’émotions

Plus le jour du grand départ approchait et plus Zinedine était impatient de pouvoir se rendre à Minneapolis pour enfin vivre son premier séjour en Amérique, tout en ayant l’occasion de défendre le fruit de plusieurs mois de travail collectif, détaillé dans le papier « SCIA at SemEval-2019 Task 3 : Sentiment Analysis in Textual Conversations Using Deep Learning ». « L’idée, c’était de pouvoir détecter l’émotion dans une petite conversation écrite, détaille l’EPITéen. Les émotions étaient réparties selon quatre critères : Happy (joie), Sad (tristesse), Angry (colère) et Others (pour les autres émotions – la peur, la hâte, etc.). D’ailleurs, la partie la plus difficile était sans doute cette dernière car, si un humain peut parfois avoir dû mal à faire la distinction entre différents sentiments, c’est aussi le cas d’un algorithme. » Un système pertinent alors que de plus en plus d’échanges se pratiquent par l’écrit, des emails aux SMS.

 

Un travail de longue haleine

Initiée par Abdessalam Bouchekif, enseignant-chercheur de l’équipe de recherche en Intelligence Artificielle de l’EPITA, également encadrant du projet (et lui-même sélectionné au SemEval pour un papier de recherche en collaboration avec des chercheurs de l’ADAPT Centre en Irlande), cette approche faisait suite à une première étude, réalisée par le quatuor en 4e année. « Il s’agissait alors de détecter une émotion dans un tweet, précise Zinedine. Nous avions utilisé des méthodes et outils en Natural Language Processing (NLP) pour y arriver. Ce modèle nous a servi de base pour ce second projet, notamment pour le pre-processing, c’est-à-dire le fait de définir quoi envoyer dans un réseau de neurones. En effet, on ne peut pas envoyer une conversation telle quelle dans un réseau de neurones : dans notre cas, nous avons supprimé les mots inutiles, enlevé ou modifié les émojis, corrigé certaines fautes d’orthographe… Puis ensuite nous avons converti les mots sous forme de vecteurs (word embedding) permettant de faciliter l’analyse sémantique des mots. »


Minneapolis vu par Zinedine


73 % de réussite

Pour le réseau de neurones en lui-même, l’équipe de Zinedine a procédé en se renseignant d’abord sur l’état de l’art : « Comme il y avait beaucoup d’architectures possible, nous avons d’abord épluché les papiers de recherche disponibles pour ensuite modifier ce qui se faisait afin que cela soit plus spécifique à notre tâche. Nous avons également suivi les conseils d’Abdessalam Bouchekif visant à fusionner plusieurs réseaux de neurones différents. En effet, si un premier réseau pense qu’une conversation est Happy et qu’un second réseau le pense aussi, la confirmation est renforcée. On peut aussi associer un coefficient à un réseau selon sa capacité à être performant sur la définition de telle ou telle émotion. Si un réseau, très “bon” pour définir le critère Happy, me dit que c’est Happy, je vais avoir davantage tendance à lui faire confiance qu’un autre réseau au coefficient plus bas sur ce critère qui prétendrait que la conversation est Sad. » Une méthodologie qui a permis au programme de réussir dans 73% des cas à détecter les bonnes émotions, sur la base de données fournie par l’organisation du SemEval.

 

Des rencontres enrichissantes

Lors de son passage aux États-Unis, Zinedine a donc pu présenter en anglais cette démarche via un grand poster scientifique, décrivant le modèle mis au point, mais aussi augmenter ses connaissances. « Durant l’événement, il n’y avait pas que des posters de présentation : il y avait aussi de courtes conférences de personnes abordant différentes notions du NLP, domaine au cœur de notre papier de recherche. C’était très intéressant. J’ai en profité pour rencontrer de nombreuses personnes passionnantes et apprendre beaucoup de choses. » L’étudiant ne se cache pas d’avoir ainsi pu côtoyer des experts de grandes entreprises (Google, Facebook, Samsung…) comme des chercheurs ou simplement d’autres lauréats de la compétition. « Tout le monde était très bienveillant et de nombreuses personnes sont venues me voir pour demander comment nous nous y étions pris ou simplement échanger des idées. Tous m’ont dit de continuer sur cette lancée et certains d’entre eux ont également souhaité garder le contact avec moi pour la suite. » De bon augure pour la carrière naissance du futur ingénieur, actuellement en stage en R&D.



À propos du SemEval : 

Organisé depuis 1998 et sponsorisé par Microsoft AI et SIGLEX, le SemEval (Semantic Evaluation) propose aux équipes internationales de recherche et aux particuliers, de développer de nouveaux systèmes informatiques pour améliorer les méthodes de traitement du langage naturel. Chaque équipe soumet un papier de recherche présentant son système et expliquant ses résultats. Les papiers retenus sont publiés et leurs auteurs les présentent lors de la conférence finale qui a lieu aux États-Unis. L’édition de 2019 comptait douze tâches réparties en cinq sous-catégories : Sémantique de trame et analyse sémantique, Détection d’opinion, d’émotion et de langage abusif, Fait VS fiction, Extraction d’information et réponse à une question, et NLP pour applications scientifiques.

Retrouvez le papier « SCIA at SemEval-2019 Task 3: Sentiment Analysis in Textual Conversations Using Deep Learning » dans ce fichier PDF