Annotation des opinions dans un corpus de comptes-rendus de lecture

L’équipe d’OpenEdition Lab remercie les trois annotateurs pour leur travail : Giulia Anichini, Nathan B. et Marine Goburdhun.

Le projet AgoraWeb pose le problème de la recommandation automatique de livres à partir d’une analyse dynamique du Web, de son contenu et de ses interconnexions implicites et explicites. Le système de recommandation de lecture développé par l’équipe d’OpenEdition Lab vise à s’approcher le plus possible de ce que pourrait proposer un expert du domaine sélectionnant des documents en fonction de ceux à qui ils sont destinés et de leur utilisation. En reliant les livres à leurs comptes-rendus, nous souhaitons rendre accessibles au public les débats scientifiques.

Le projet s’articule autour de deux axes de recherche :

  • le développement de méthodes numériques robustes, applicables à grande échelle pour rechercher efficacement sur le Web un ensemble pertinent d’informations et de commentaires liés à la parution d’un ouvrage ;
  • l’analyse des opinions contenues dans les comptes-rendus de lecture (CR) pour identifier un ensemble d’extraits significatifs.

Pour la première étape de ce projet, l’équipe a travaillé sur des méthodes de classification automatique des comptes-rendus en se basant :

  • sur des outils d’aide à la décision (les arbres de décision)
  • sur la représentation des documents (les sacs de mots)
  • sur la reconnaissance des entités nommées (détection des auteurs, des dates, etc.)

Ces méthodes doivent permettre de rechercher, sur la plateforme Hypothèses, les comptes-rendus de lecture dans les carnets de recherche (Benkoussas et al., 2013).

Pour la seconde étape, nous avons constaté qu’en nous appuyant sur des corpus de textes simples comme des commentaires ou des avis de consommateurs, nous avons pu identifier les difficultés liées à l’analyse des sentiments dans les comptes-rendus de lecture (la longueur du texte, les phénomènes langagiers, les différentes propriétés contenues dans une recension). Nous devons adapter les logiciels que nous avons développés (Hamdan et al., 2014a et 2014b ; Hamdan et al., 2015) aux contenus d’OpenEdition.

L’analyse des sentiments : définition

L’analyse des sentiments consiste à analyser une grande quantité de données pour déterminer les opinions ou les sentiments exprimés dans les textes. Développée dans les années 2000, l’analyse des sentiments (Pang et Lee, 2008) est utilisée pour détecter les opinions des utilisateurs sur des sujets divers. Le but est alors d’attribuer une polarité (positive, négative ou neutre) à des opinions présentes dans les documents. Ainsi, ces analyses sont utilisées sur des commentaires des internautes, des forums ou plus récemment sur les réseaux sociaux comme Twitter1.

Il existe plusieurs approches2 :

    • l’analyse lexicale consiste à déduire l’opinion d’un texte en utilisant des méthodes de classification des phrases et en s’appuyant sur des dictionnaires qui référencent des mots subjectifs dont la polarité a été précodée. Parmi les principaux dictionnaires connus, nous pouvons citer le General Inquirer et SentiWordNet ;
    • les techniques d’apprentissage permettent de détecter des expressions, des modèles issus d’un corpus d’apprentissage, à l’aide de différentes méthodes de classification :

Pour cette seconde approche, il existe de nombreux corpus issus des campagnes d’évaluation internationales comme DÉfi Fouille de Textes (DEFT), Semantic Evaluation (SemEval) ou Social Book Search (SBS – CLEF). De plus, il existe des corpus d’apprentissage permettant d’analyser les opinions contenues dans des commentaires d’utilisateurs comme :

  • le corpus « À voir, à lire » (Grouin et al., 2007) qui comprend essentiellement des critiques de livres mais aussi des critiques de films et de spectacles annotées selon trois valeurs : favorable, neutre et défavorable ;
  • le corpus SBS comprend plusieurs collections de documents dont une collection qui décrit 2,8 millions de livres avec des métadonnées issues d’Amazon (les informations sur le livre, les commentaires et les votes des utilisateurs).

Ces corpus construits et distribués aux communautés scientifiques doivent permettre de développer de nouveaux modèles à partir des techniques d’apprentissage existantes afin de pouvoir les appliquer à tout type de contenus. Cependant, dans le cadre de notre projet de recherche, il était plus pertinent de construire un nouveau corpus qui tienne compte des spécificités des plateformes d’OpenEdition.

Description du corpus de comptes-rendus

Le corpus d’apprentissage est constitué de documents issus de deux plateformes d’OpenEdition, Revues.org et Hypothèses. La plateforme Revues.org a pour mission de promouvoir l’édition électronique des revues dans tous les domaines des sciences humaines et sociales et accueille aujourd’hui 400 revues en ligne, dont 65% sont en open access. Hypothèses est une plateforme de carnets de recherche et constitue un espace d’expérimentation de nouvelles écritures académiques, de communication directe entre les chercheurs et de construction de la science.

Ces comptes-rendus sont de longueurs différentes et présentent des spécificités structurelles et langagières propres à chacun.

Nous avons extrait 200 comptes-rendus en français et au format XML qui ont ensuite été segmentés en phrases afin d’annoter pour chacune d’entre elles :

  • la cible (target)
  • les termes porteurs de jugement (polarityTerms)
  • la polarité (polarity)
  • la propriété du compte-rendu (category)
<sentence id="3">
<text> Écrit en pleine aube de la " guerre fraîche " , La Troisième Guerre mondiale fait l' éloge des militaires occidentaux et exprime des idées clairement ancrées à droite , anticommunistes mais également anti-syndicales ( l' exemple du Royaume-Uni est logiquement développé ) et néo-libérales . </text>
<Opinions>
<Opinion target="" polarityTerms="" category="" polarity="" occurrence=""/>
</Opinions>
</sentence>

<sentence id="11">
<text> Pour elle , le combat pour le respect des droits de la minorité noire n' a aucune chance d' être victorieux si les femmes restent asservies . </text>
<Opinions>
<Opinion target="" polarityTerms="" category="" polarity="" occurrence=""/>
</Opinions>
</sentence>

Fig. 1 Exemple de phrases segmentées provenant du corpus d’apprentissage

La méthodologie d’annotation des comptes-rendus de lecture

Nous avons mis en place une méthode d’annotation des comptes-rendus qui doit permettre à la fois de détecter la structure des comptes-rendus et d’annoter les opinions contenues dans le texte. Par ailleurs, nous avons dû définir à quel niveau du texte l’annotation doit se porter : donner une polarité générale au paragraphe ?  Ou travailler au niveau le plus fin, c’est-à-dire l’annotation de chaque phrase du compte-rendu ?

Nous nous sommes appuyés sur différentes techniques d’annotation en fonction de la nature du corpus mais aussi en fonction des objectifs fixés dans ce projet.

La première méthode est celle de (Wilson et Wiebe, 2003 ; Wiebe et. al., 2005), développée pour annoter des articles issus des “news” et des forums. Elle présente l’avantage d’être très précise et d’indiquer les nuances de jugement sur chaque mot ou groupe de mots, ce qui peut être très utile sur l’avis que peut donner l’auteur du compte-rendu. Mais elle se révèle inadaptée si elle doit être appliquée à l’ensemble du compte-rendu qui va contenir la description de l’ouvrage, expliquer les méthodes employées par le chercheur, etc.

La seconde méthode est celle utilisée par la campagne d’évaluation SemEval sur des corpus de commentaires de consommateurs, notamment sur des avis de restaurants et d’ordinateurs. Celle-ci permet de distinguer les éléments qui composent un compte-rendu et donne une polarité à un ensemble de plusieurs phrases ou à un paragraphe en fonction du terme auquel des mots porteurs de jugement sont associés (SemEval, 2015).

Au vu des tests réalisés sur les comptes-rendus de lecture disponibles sur OpenEdition, nous avons mis en place un guide d’annotation qui s’appuie sur ces deux méthodes et qui va permettre :

  • d’identifier les éléments qui composent un compte-rendu de lecture ;
  • de créer un extracteur de citation remarquable.

La recherche des aspects ou propriétés des comptes-rendus

Nous définissons par aspects, les propriétés propres à un objet sur lesquelles des opinions sont exprimées, comme par exemple, pour un livre, la pertinence de ses références bibliographiques ou la qualité du livre. Ensuite pour chaque « aspect », nous attribuerons une polarité (positive, négative ou neutre).

Il existe deux méthodes pour rechercher des aspects :

  • un système de recherche d’information qui permettra de déterminer de manière automatique une liste d’aspects pour les comptes-rendus d’ouvrages ;
  • demander à des experts du domaine quelles sont les caractéristiques des comptes-rendus.

Dans le cadre de notre projet, nous nous sommes appuyés sur la deuxième méthode pour établir une liste non exhaustive d’« aspects » pour les comptes-rendus. Dans la littérature, de nombreux articles se sont intéressés aux différentes méthodes de rédaction des comptes-rendus et à l’impact des notes de lecture dans la carrière des universitaires (Riley et Spreitzer, 1970). Ainsi, dans un article sur les modes de lecture et d’écriture des comptes-rendus dans les différentes disciplines scientifiques (Hartley, 2006), l’auteur propose un modèle de structure du compte-rendu universitaire et les différents aspects ou items attendus par les publics universitaires.

Nous avons aussi fait appel à l’équipe de rédaction de la revue Lectures3, spécialisée dans les comptes-rendus d’ouvrages en sciences humaines et sociales, qui nous a précisé les éléments attendus dans une recension en SHS.

Nous avons retenu l’ensemble des critères suivants pour l’annotation des comptes-rendus :

  • présentation de l’ouvrage
  • problématique de l’ouvrage
  • contexte scientifique
  • méthode scientifique
  • argumentation de l’auteur
  • organisation de l’ouvrage
  • jugement sur l’ouvrage

Annotation des opinions dans le corpus d’apprentissage

La tâche d’annotation a été confiée à trois experts ayant une bonne connaissance des sciences humaines et sociales et un très bon niveau de français, et elle a consisté à identifier différentes informations contenues dans les notes de lecture :

  • target ou référence explicite : il s’agit d’un mot ou groupe de mots ou expression présent dans le texte ;
  • category ou propriété du compte-rendu : il s’agit de propriétés propres à un objet sur lesquelles des opinions sont exprimées ;
  • polarity : valeur attribuée à chaque catégorie (neutre, positive ou négative) ;
  • polarityTerms ou mot porteur d’opinion : mots ou expressions qui évoquent le sentiment.
<sentence id="6">
<text>Mais la méthode avec laquelle il est présenté comme seule hypothèse recevable pose problème.</text>
<Opinions>
<Opinion target="méthode" polarityTerms="pose problème" category="methodology" polarity="very negative" occurrence="1"/>
</Opinions>
</sentence>

Fig. 2 Annotation des opinions d’une phrase issue du corpus d’apprentissage

L’idée est donc d’associer chaque target à chaque category et chaque polarityTerm avec chaque polarity, certains mots pouvant se recouper entre plusieurs propriétés ou polarités.

Fig. 3 Schéma représentant les associations possibles entre les mots annotés et les propriétés des comptes-rendus ou les polarités

Au vu de la durée et de la difficulté de la mission, seule la moitié du corpus a été annotée. Cependant, des pistes d’amélioration de la méthode d’annotation ont été proposées afin de permettre de créer d’autres corpus d’apprentissages en fonction des besoins linguistiques (anglais, espagnol, italien, etc.) nécessaires pour le projet.

Quelques pistes pour améliorer l’annotation des comptes-rendus

La méthode d’annotation peut-être différente en fonction du point de vue adopté par les annotateurs. L’annotation s’est portée sur la granularité la plus fine : détection des sentiments phrase par phrase. Or, l’analyse des opinions à ce niveau peut conduire à beaucoup de contresens notamment dans les propriétés du compte-rendu ou sur la polarité. Les annotateurs ont adapté l’évaluation en fonction du contexte du compte-rendu, c’est-à-dire en fonction du contenu du paragraphe qui va permettre d’aider l’annotation.

Exemple :

« il est effarant de voir comment le désintérêt profond »

Si le contexte est pris en compte : positif / si le contexte est occulté : négatif

« le volume ne comporte ni résumé, ni images contrairement à un usage répandu et fort commode pour les lecteurs »

Si le contexte est pris en compte : négatif / si le contexte est occulté : positif.

Les propriétés « contexte », « présentation » et « argument » n’ont pas été suffisamment définies pour les experts pour pouvoir les appliquer aux comptes-rendus.

Par exemple, l’argumentaire de l’auteur de l’ouvrage peut se confondre avec l’argumentaire de l’auteur du CR : « cet article m’a fait penser à un livre que j’ai lu l’octobre dernier ». Dans ce cas, les annotateurs ont fait le choix d’utiliser la propriété « argument » pour les deux auteurs dans l’annotation du corpus d’apprentissage.

Pour les CR d’histoire et de géographie il a été difficile de distinguer les propriétés « présentation » et « arguments » en fonction de ces disciplines. Les annotateurs ont choisi de définir la propriété « présentation » comme la présentation la plus globale de l’ouvrage.

Enfin, il a fallu ajouter la propriété « citation » pour les comptes-rendus, notamment quand la phrase à annoter correspond à un extrait de l’ouvrage.

Bibliographie

“Aspect Based Sentiment Analysis (ABSA). Restaurant Reviews Annotation Guidelines”. SemEval 2015.
URL: http://alt.qcri.org/semeval2015/task12/data/uploads/semeval2015_absa_restaurants_annotationguidelines.pdf

Chahinez Benkoussas, Hussam Hamdan, Patrice Bellot, Élodie Faath, Marin Dacos, Frédéric Béchet. (2013). “Machine Learning and Text Mining for Retrieving Reviews of Books”, OpenEdition Lab, November 11, 2013.
URL: http://lab.hypotheses.org/867.

Cyril Grouin, Jean-Baptiste Berthelin, Sarra El Ayari, Thomas Heitz, Martine Hurault-Plantet, Michèle Jardino, Zohra Khalis, et Michel Lastes. (2007). « Présentation de DEFT’07 (DÉfi Fouille de Textes) ». Actes de l’atelier de clôture du 3e DÉfi Fouille de Textes, 3 juillet 2007, Grenoble, France.
URL: http://www.linguist.univ-paris-diderot.fr/~sayari/publis/grouin-et-al07.pdf

Hussam Hamdan, Patrice Bellot, Frédéric Béchet. (2014a). “Positive Or Not Positive, That’s The Question”. OpenEdition Lab. 3 janvier 2014.
URL: http://lab.hypotheses.org/916

Hussam Hamdan, Patrice Bellot, Frédéric Bechet. (2014b). “Supervised Methods for Aspect-Based Sentiment Analysis“. In Proceedings of the Eighth International Workshop on Semantic Evaluation (SemEval’14). August 23-24, 2014, Dublin, Ireland.
URL: http://alt.qcri.org/semeval2014/cdrom/pdf/SemEval2014104.pdf

Hussam Hamdan, Patrice Bellot, Frédéric Bechet. (2015). “CRF and Logistic Regression for Opinion Target Extraction and Sentiment Polarity Analysis”. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). June 4-5, 2015, Denver, Colorado, pages 753–758.
URL: http://alt.qcri.org/semeval2015/cdrom/pdf/SemEval128.pdf

James Hartley. (2006). “Reading and writing book reviews across the disciplines”. Journal of the American Society for Information Science and Technology, vol. 57, nr. 9, s. 1194-1207.
DOI:10.1002/asi.20399

Audrey Lohard. (2012). « Détecter les tonalités : opinion mining et sentiment analysis ». In Dominique Boullier, Opinion mining et ‎Sentiment analysis : Méthodes et outils. Sciences Po │ Médialab. Marseille: OpenEdition Press.
URL: http://books.openedition.org/oep/214.

Bo Pang, Lillian Lee. (2008). “Opinion Mining and Sentiment Analysis”, Foundations and Trends in Information Retrieval, vol. 2, no 1-2, p. 1-135.
URL : http://www.cs.cornell.edu/home/llee/omsa/omsa-published.pdf

Lawrence E. Riley, Elmer A. Spreitzer. (1970). « Book reviewing in the social sciences ». American Sociologist, 25: 358–363.
URL: http://www.jstor.org/stable/27701668

Janyce Wiebe, Theresa Wilson, Claire Cardie. (2005). “Annotating expressions of opinions and emotions in language”. In Language Resources and Evaluation, volume 39, issue 2-3 , pp. 165-210.
DOI: 10.1007/s10579-005-7880-9

Theresa Wilson, Janyce Wiebe. (2003). “Annotating opinions in the world Press”, Proc. 4th SIGdial Workshop on Discourse and Dialogue (SIGdial-03), ACL SIGdial.
URL: https://people.cs.pitt.edu/~wiebe/pubs/papers/sigdial03FixedLater.pdf

Notes

  1. Comme par exemple la tâche Sentiment Analysis in Twitter présente dans les deux dernières campagnes d’évaluation SemEval []
  2. Pour une présentation plus détaillée voir Audrey Lohard, 2012 []
  3. Nous remercions Pierre Mercklé et son équipe pour leur aide dans la définition de ces propriétés. []

Vous devriez également aimer ...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *