Visualisations | BIOLOGRAPHES

Dans un billet précédent, nous avons montré comment un diagramme de Sankey avait été utilisé pour repérer les auteurs les plus citants et les plus cités d’un même corpus.

Nous proposons ici un outil simple, se situant à mi-chemin entre analyse lexicale et analyse stylistique, permettant la reconnaissance de listes significatives de mots fréquents pour l’analyse contrastive de deux textes à partir de leur liste de mots les plus fréquents, appelées Chaînes de Formes Partagées (CFP).

Cet outil, inspiré des diagrammes de Sankey et utilisant l’étude de la fréquence des mots (domaine de l’analyse lexicale qui permet de repérer les “thème / rhème” des textes), aide à la détection d’ensembles de mots classés dans un ordre inversé (ou pas) dans deux textes différents. Lorsqu’une chaîne de mots est mise en évidence, l’analyse automatique peut être étendue à l’étude de leurs collocations (ou cooccurrents) pour affiner l’analyse. Le but est de traiter une CFP comme un guide pour l’interprétation des textes, dans le domaine de l’analyse stylistique.

La visualisation ci-dessus a ainsi été générée à partir de la liste des 10 mots les plus fréquents dans deux sous-corpus appartenant à une collection de textes de vulgarisation scientifique provenant de la Revue des deux mondes : un sous-corpus d’articles écrits par deux philosophes, Auguste Laugel et Étienne Vacherot d’une part, et deux scientifiques, Claude Bernard et Charles Martins, d’autre part.

Elle montre les deux listes de mots fournies au logiciel, disponible sur http://treecloud.org/cfp/index_fr.php. La taille des mots dépend de leur nombre d’occurrences dans les deux listes fournies, normalisées en fonction du nombre d’occurrences le plus faible et le plus élevé. Si le même mot apparaît du côté gauche et du côté droit, un lien est dessiné. Le lien est coloré en bleu si le mot est mieux classé dans la seconde liste, rouge s’il est mieux classé dans la première, violet s’il a le même classement dans les deux listes.

Il est ainsi facile de visualiser les mots présents parmi les plus fréquents dans un sous-corpus sans l’être dans l’autre (ceux qui ne sont associés à aucun lien), et de détecter ceux qui relèvent des savoirs biologiques. Enfin, les intersections de liens permettent de repérer immédiatement les inversions de formes partagées, comme « nature>science>vie>phénomènes », gradation allant de concepts généraux à des mots renvoyant à des réalités plus tangibles, qui vont guider l’interprétation contrastive des textes des deux sous-corpus. On peut mettre en relief ces liens qui s’intersectent en cliquant dessus dans l’outil, ce qui leur donne une couleur plus vive.

Nous avons limité cette CFP aux 10 mots les plus fréquents, mais il est possible d’en construire sur un nombre plus important de mots. D’autres exemples sont donnés dans les articles suivants :

Nadège Lechevrel, Philippe Gambette. Une approche textométrique pour étudier la transmission des savoirs biologiques au XIXe siècle. Nouvelles perspectives en sciences sociales, Prise de parole (Ontario, Canada), 2016, 12 (1), pp.221-253
Christine Barats, Anne Dister, Philippe Gambette, Jean-Marc Leblanc, Marie Pérès. Appeler à signer une pétition en ligne : caractéristiques linguistiques des appels. JADT 2018, Juin 2018, Rome, Italie p. 68-75.

Pour utiliser les CFP afin sur vos propres textes, il vous suffit de disposer pour chacun des deux textes que vous voulez comparer de sa liste de mots les plus fréquents avec leur nombre d’occurrence organisée de la manière suivante : sur chaque ligne, un mot suivi d’un point virgule, suivi du nombre d’occurrences du mot. De telles listes peuvent être générées automatiquement à partir de vos textes sur le site treecloud.org.

Nadège Lechevrel & Philippe Gambette

BIOLOGRAPHES

Archives de catégorie : Visualisations

Des savoirs partagés

Explorer les réseaux de citation du corpus Biolographes

Création littéraire et savoirs biologiques au dix-neuvième siècle | Literarische Kreativität und biologisches Wissen im 19. Jahrhundert