Sunday Query : utiliser SPARQL et Python pour corriger des coquilles sur Wikidata

À mon tour de faire une #SundayQuery! Comme Harmonia Amanda l’a dit dans son propre billet, j’envisageais de faire un article expliquant comment créer un script Python permettant de corriger les résultats de sa requête.. Finalement, j’ai préféré en faire un autre, au fonctionnement similaire mais plus court et plus simple à comprendre. Le script pour Harmonia est cependant disponible en ligne ici.

Jeudi, j’ai publié un article au sujet des  batailles du Moyen Âge, et depuis, j’ai commencé à corriger les éléments correspondants sur Wikidata

L’une des corrections les plus répétitives était la capitalisation des libellés en français : comme ils ont été importés de Wikipédia, ils ont une majuscule inutile au début ( « Bataille de Saint-Pouilleux en Binouze » instead of « bataille de Saint-Pouilleux en Binouze »…)

La requête

Commençons par trouver tous les éléments présentant cette coquille.

http://tinyurl.com/jljf6xr

Quelques explications de base :

  • ?item wdt:P31/wdt:P279* wd:Q178561 .  cherche les éléments qui sont des batailles ou des sous-classes de batailles, pour être bien sûr que je ne vais pas virer sa majucule à un bouquin intitulé  « Bataille de Perpète-les-Olivettes »…
  • Sue la ligne suivante, je demande les libellés pour les éléments en question  ?item rdfs:label ?label .  et les filtre pour ne garder que ceux en français FILTER(LANG(?label) = "fr") . . Comme j’ai besoin d’utiliser le libellé dans la requête et pas juste de l’afficher (et comme Harmonia Amanda l’a expliqué dans son billet de dimanche), je ne peux pas utiliser le servicce wikibase:label, et je me rabats donc sur le standard du web sémantique rdfs:label.
  • La dernière ligne est un FILTER  (filtre), qui ne garde que les résultats qui répondent à la fonction à l’intérieur. Ici, STRSTARTS  vérifie si ?label  commence avec "Bataille " .

Au moment où j’ai écrit la version anglaise de ce texte, la requête renvoyait 3521 résultats. Beaucoup trop pour les corriger à la main, et je ne connais aucun outil déjà existant qui pourrait faire ça pour moi… Je suppose qu’il est temps de dégainer Python, du coup !

Le script Python

J’aime Python. J’adore carrément Python, même. Ce langage est génial pour créer une une application utile en une poignée de minutes, facile à lire (pour peu qu’on lise l’anglais) et pas constellé de séries d’accolades ou de points-virgules, et a des libs géniales pour les choses que je fais le plus avec : récupérer le contenus de pages web, trier des données, vérifier des ISBNs[1] et faire des sites web. Oh, et pour faire des requêtes SPARQL et traiter les résultats[2].

Deux charmeurs de serpent avec un python et deux cobras.
Et puis le nom du langage a un petit côté « charmeur de serpents » ;)

Premières remarques

Si vous ne connaissez pas du tout le Python, cet article n’est pas le bon endroit pour ça, mais il y a de nombreuses ressources disponibles en ligne[3]. Assurez-vous juste qu’elles sont à jour et pensées pour Python 3. La suite de cet article part du principe que vous avez une connaissance basique de Python (indentation, variables, chaînes de caractères, listes, dictionnaires, imports et boucles for.), et que Python 3 et pip sont installés sur votre machine.

Pourquoi Python 3 ? Parce que nous allons manipuler des chaînes qui viennent de Wikidata et sont donc encodées en UTF-8 et que Python 2 n’est pas hyper pratique pour ça. Et puis mince, on est en 2016, par Belenos !

Pourquoi pip ? Parce qu’on a besoin d’une libraire non-standard pour faire des requêtes SPARQL, appelée SPARQLwrapper, et que cette commande est le moyen le plus simple de l’installer :

Allez, on commence à scripter !

Pour commencer, un script qui fait une requête Sparql retournant la liste des sièges à corriger[4]:

Ça fait un bon petit paquet de lignes, mais que font-elles ? Comme on va le voir, la plupart vont en fait être incluses à l’identique dans tout script qui fait une requête  SPARQL.

  • Pour commencer, on importe deux choses du module  SPARQLWrapper : la classe SPARQLWrapper elle-même et la constante « JSON » qu’elle va utiliser plus tard (pas d’inquiétude, on n’aura pas à manipuler du json directement.)
  • On import aussi le module « Pretty printer » pour afficher les résultats de manière plus lisible.
  • Ensuite, on crée une variable qu’on nomme « endpoint », qui contient l’URL complète vers le point d’accès SPARQL de Wikidata[5].
  • Ensuite, on crée une instance de la classe SPARQLWrapper qui utilisera ce point d’accès pour faire des requêtes, et on les met dans une variable simplement appelée  « sparql ».
  • On applique à cette variable la fonction setQuery, qui est l’endroit où l’on rentre la requête de tout à l’heure. Attention, il faut doublonner les accolades (remplacer { et } par {{ et }}, car elles sont des caractères réservés dans les chaînes Python.
  • sparql.setReturnFormat(JSON)  dit au script que le résultat sera retourné en json.
  • results = sparql.query().convert() , enfin, fait la requête elle-même et convertit la réponse dans un dictionnaire Python appelé  « results ».
  • Et pour l’instant, on va juste afficher le résultat à l’écran pour voir ce qu’on obtient.

Ouvrons un terminal et lançons le script :

C’est un gros paquet de résultats mais on peut voir que c’est un dictionnaire qui contient deux entrées :

  • « head », qui contient les noms des deux variables renvoyées par la requête,
  • et « results », qui contient lui-même un autre dictionnaire avec la clef « bindings », associée avec la liste des résultats eux-mêmes, chacun d’entre eux étant lui-même un dictionnaire  Python. Pfiou…

Examinons un desdits résultats :

C’est un dictionnaire avec deux clefs (label et item), chacune ayant pour valeur un autre dictionnaire qui à son tour a une clef « value » associée avec, cette fois, la valeur qu’on veut au final. Enfin !

Parcourir les résultats

Parcourons la liste « bindings » avec une boucle « for » de Python, pour pouvoir en extraire les résultats.

Rapide explication sur la ligne  qid = result['item']['value'].split('/')[-1]  : comme l’identifiant de l’élément est en fait stocké sous la forme d’une URL complète (« https://www.wikidata.org/entity/Q17627724 » et pas juste « Q17627724 »), il nous faut séparer cette chaîne à chaque caractère ‘/’, ce qu’on fait à l’aide de la fonction « split()« , qui transforme la chaîne en une liste Python contenant ceci :

Nous ne voulons que le dernier élément de cette liste. En Python, c’est celui avec l’index -1, d’où le [-1] à la fin de la ligne. Enfin, nous stockons cette valeur dans la variable qid.

Lançons le script ainsi modifié :

Corriger le problème

On y est presque ! Maintenant, il reste à remplacer cet orgueilleux « S » majuscule par un plus modeste « s » minuscule :

Que se passe-t-il ici ? Une chaîne Python fonctionne comme une liste, on peut donc lui demander de prendre la partie située entre le début de la chaîne « label » et la position qui suit le premier caractère (« label[:1] ») et forcer celui-ci en bas-de-casse (« .lower() »). Ensuite, on y concatène le reste de la chaîne (de la position 1 à la fin, donc « label[1:] ») et on réassigne ce résultat à la variable « label ».

Dernière chose, formater le résultat de manière compatible à QuickStatements:

Cette ligne semble barbare ? Elle est en fait assez simple : "{}\tLfr\t{}"  est une chaîne qui contient un premier emplacement pour le résultat d’une variable (« {} »), puis une tabulation, (« \t »), puis le mot-clef Quickstatements pour le libellé français (« Lfr »), une autre tabulation et enfin le second emplacement pour une variable. Ensuite, la fonction « format() » se charge de mettre le contenu des variables « qid » et « label » dedans. Le script final devrait ressembler à ça :

C’est parti :

On est bons ! Il ne reste plus qu’à copier-coller le résultat dans QuickStatements et attendre qu’il fasse le boulot tout seul.

Image à la une : Photographie de fontes de caractères par Andreas Praefcke (domaine public)

Enregistrer

  1. J’espère pouvoir bientôt quelque chose ici sur ce sujet. []
  2. En plus, les exemples dans la doc officielle sont basés sur Firefly. Yes sir, Captain Tightpants. []
  3. Par exemple, https://www.codecademy.com/learn/python ou https://docs.python.org/3.5/tutorial/. []
  4. Oui, les sièges, j’ai déjà corrigé les batailles avant d’écrire le billet 😉 []
  5. Et non son accès web qui est simplement « https://query.wikidata.org/ » []

De la classification sur Wikidata

Quand on classe des trucs, on a grosso-modo deux approches possibles : des cases hyper-pointues allant aussi loin que possible dans le détail, ou au contraire des cases très larges en laissant à l’utilisa⋅teur⋅trice le soin de croiser pour trouver ce qui l’intéresse. Wikimedia Commons a grosso-modo choisi la première approche, avec des catégories comme « [[Category:Castles in Andalusia at night]][1] », alors que Wikidata a plutôt choisi l’approche inverse, avec un grand nombre de propriétés que l’on peut croiser par le biais de requêtes SPARQL (entre autres), ce qui donne pour l’Alhambra de Grenade : « Nature de l’élément (P31) → château fort (Q23413) » et « Pays (P17) → Espagne (Q29) » et tout un tas d’autres déclarations[2].

Un château en Espagne (allégorie)
Un château en Espagne (satire)

Je dis « plutôt choisi » parce qu’il arrive qu’on tombe sur des cas où une classe tente de mélanger plusieurs axes, et qui suffisent généralement à démontrer pourquoi cette approche est une mauvaise idée. En l’espèce, je vais me pencher sur l’élément « bataille du Moyen Âge (Q15991159) » : ça tombe bien, c’est un domaine qui me botte.

Le problème des classes aux limites arbitraires

Le premier problème qui vient à l’esprit, c’est les limites de la classe : si on se fie à sa description en français, la seule présente lors de sa création, cette classe est censée contenir des « bataille[s] ayant eu lieu pendant la période du moyen âge, en occident ». Bon, la description précise explicitement l’Occident qui n’était qu’implicitement défini par le fait que le Moyen Âge est une notion d’historiographie occidentale, mais les limites restent assez floues.

  • Bataille en soi est discutable (on peut se poser la question d’y inclure ou non les sièges, par exemple), mais partons du principe que l’on a la même définition que pour l’élément « bataille (Q178561) » tout court qu’il remplace en tant que nature de l’élément (P31).
  • Par contre, « la période du moyen âge », c’est largement plus subjectif. Les dates varient pas mal. Si la plupart des historiens s’accordent à situer le début à l’année 476[3], la fin est plus floue. Même en ignorant le « long Moyen Âge » de Jacques Le Goff qui s’étend en gros de Justinien à la Révolution française, les dates généralement admises varient par pays mais sont situées dans la seconde moitié du XVe siècle.
  • Enfin, comme dit plus haut, le Moyen Âge est un concept occidental, ce qui recouvre une zone aux contours flous, aussi bien à l’époque actuelle que si on se limite au Moyen Âge : au début de la période, c’est l’Empire romain d’Occident, celui qui vient de s’effondrer sous les coups des barbares assoiffés de sang qui, etc., vous connaissez le roman national. À la fin, c’est, pour faire simple, la Chrétienté[4], ce qui pose d’autres questions : à partir de quand peut-on inclure les batailles dans les pays orthodoxes ? Et dans les pays scandinaves/germaniques/nordiques ? Et les batailles impliquant des forces européennes mais se passant ailleurs, comme les Croisades, on les compte ? Autrement dit pour ce dernier cas, on définit « Occident » par le lieu de l’action ou par l’origine des belligérants ?

Par comparaison, l’approche standard de Wikidata (en utilisant « nature de l’élément (P31)bataille (Q178561) », date (P585)[5], « lieu (P276) » et « participant (P710) » pour les cas abordés dans la liste ci-dessus) se révèle à la fois plus souple (on peut être très précis⋅e sur la date comme sur le lieu) et moins subjective que l’apposition de la classe bataille du moyen Âge…

Les données réelles

Du coup, avec des définitions aussi floues, on peut se demander comment les données sont utilisées…

Cherchons donc ça.

On a donc 687 éléments ayant cette nature, dont voici la liste par ordre alphabétique.

Répartition géographique

Plaçons donc les résultats sur une carte :

bataillesmoyenagecarte

http://tinyurl.com/jf4kvzw

Ouch, ça pique. Je veux bien admettre qu’on compte les batailles au Proche Orient, probablement liées aux Croisades, mais des chevaliers médiévaux dans le Golfe de Guinée ? au Mexique ? au Japon ? Il semblerait que la limitation de la classe à l’Occident ne soit pas une évidence pour tout le monde. Argh. Mais on est au moins raccord sur la période alors ?

Répartition temporelle

bataillesmoyenagefrisehttp://tinyurl.com/hkb6cqf

Si on place les résultats sur une frise, c’est nettement meilleur que sur la carte, avec seulement deux résultats manifestement erronés : la bataille d’Andrinople en 378 et celle de Szikszó en 1588 (vous ne devriez pas les voir ressurgir dans les résultats, j’ai corrigé ça.) Reste que la limite de fin reste arbitraire, contrairement à une requête normale où l’on peut choisir celle qui nous intéresse, que ça soit 1453[6], 1492[7], ou n’importe quelle autre.

Si on résume, l’arbitraire des choix impliqués par une classe croisant de multiples critères la rend inutilisable en pratique, tout en compliquant la recherche des batailles « normales » puisque qu’on doit du coup inclure les sous-classes, juste pour récupérer les batailles ayant eu lieu en Europe (ou pas) entre 476 et 1453, ou 1492, ou 1500 (enfin on l’espère).

Ma conclusion ? Comme disait Jeanne la Flamme au siège d’Hennebont, foutez-y-moi le feu.

jeanne_flamme
Jeanne la Flamme, par Jeanne Malivel (1926)

Image d’en-tête : Le Combat des Trente (détail), par Pierre Le Baud (1480-1482)

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

Enregistrer

  1. Je suis déçu : il n’y a pas de sous-catégorie [[Category:Castles in Andalusia at night facing left]]. []
  2. Wikipédia, quant à elle, hésite entre ces deux approches, selon les catégories. []
  3. En revanche, la culture populaire a tendance à ignorer complètement le haut Moyen Âge. Tous les jeux de stratégie médiévale que je connais commencent en 1066 avec l’expédition de Guillaume le Conquérant. Si la période précédente est abordée, c’est dans des extensions, comme Crusader Kings II avec Charlemagne. []
  4. enfin pas l’Éthiopie non plus, faut pas déconner. []
  5. ou « date de début (P580) » et « date de fin (P582) » si besoin. []
  6. Quand les Bretons sont venus sauver le cul des Français une énième fois à la bataille de Castillon. Ou alors c’est pour l’invention de l’imprimerie mobile par Gutenberg, ou la chute de Constantinople, allez savoir. []
  7. Quand les Français, ingrats (cf. note précédente), s’emparent de « la ville de Rennes et la fille qui est dedans », à moins que ça n’ait trait à la fin de la Reconquista et à l’expédition de Christophe Colomb… []

Prototypage rapide d’entités Wikidata

W

ikidata est un projet puissant, mais pour pouvoir en profiter, il faut le remplir. Bien sûr, il est possible d’ajouter des données à la main directement sur le site : ça fonctionne sans souci mais que faire quand on a plusieurs dizaines d’entrées ? Plusieurs centaines ? Avec le temps, quelques outils ont vu le jour permettant d’automatiser un peu ce processus, comme l’indispensable QuickStatements ; là encore, il faut bien lui fournir les données qu’il mange et tout ceci est parfois bien fastidieux. Est-ce qu’on ne peut pas aller plus loin ?

Une entrée wikidatienne sur un être humain, par exemple, possède des champs plus ou moins codifiés :

  • Une nature de l’élément égal à Q5, « être humain »
  • Un genre (masculin, féminin, etc.)
  • Une date et un lieu de naissance
  • Une date et un lieu de décès
  • Un pays de nationalité
  • Une occupation
  • Un prénom et un nom de famille

Toutes ces propriétés ne se rencontrent pas à chaque fois et on peut en rajouter d’autres, mais est-ce que ça ne serait pas intéressant d’avoir une sorte de formulaire où on se contenterait de remplir les cases correspondantes, histoire de créer rapidement un squelette d’entité Wikidata ? Pour voir, j’ai codé l’utilitaire « human » : vous mettez ce qu’il faut dans les champs, vous appuyez sur le bouton et il produit le code à destination de QuickStatements. J’ai le sentiment qu’on peut ainsi gagner du temps et on n’oublie rien.

Histoire d’aller un peu plus loin, je me suis penché sur la base Joconde, qui a le goût d’être remplie avec pas mal de soin. J’en ai sorti un autre utilitaire, baptisé Joconde parce que je suis un gars avec une imagination débordante. Sa fonction : parser une fiche Joconde, en retirer les champs qui vont bien (titre, auteur, sujets représentés, etc.) et présenter le résultat dans un formulaire pour correction avant envoi à QuickStatements. Les champs corrigés sont stockés en base, histoire que si l’utilitaire puisse ressortir la correction s’il retombe dessus (comme ça, « MONET Claude » est automatiquement corrigé en « Claude Monet, peintre français, Q296 »). On y gagne du temps.

Personnellement, je pense que cette idée de formulaires pré-remplis est à creuser, pour Wikidata. Qu’en pensez-vous ?

PS : j’imagine que mon outil pour Joconde doit enfreindre des milliers de lois, de licences et de copyrights. Je laisse le soin aux Wikimédiens que ça intéresse de discuter de la chose et de décider s’il faut supprimer toutes mes contributions. Prévenez-moi juste du résultat final.

(Image d’en-tête : détail de La Joconde, par Léonard de Vinci (domaine public))

Mise à jour du 28 septembre 2016 : j’ai placé le code des outils en question sur GitHub : https://github.com/PoulpyFR. Bien sûr, c’est codé n’importe comment et pas commenté. 🙂

Ben Whishaw, Broadway, la RADA et Wikidata

(English version here)

Bonjour tout le monde, ici Harmonia Amanda squattant le blog d’Ash_Crow. Il m’a été suggéré de faire un billet de blog pour vous raconter tout ce que je fais en ce moment en rapport avec la RADA (Royal Academy of Dramatic Art) sur Wikidata. Pour m’assurer que personne ne le lira, j’ai donc écrit un truc long, bourré de notes de bas de page et avec même des vrais bouts de SPARQL dedans. Ne me remerciez pas.

Comment ça commence : The Hollow Crown

Tout est de la faute de Ben Whishaw. Je regardais tranquillement les adaptations de Shakespeare par la BBC (et pour celleux qui ne connaissent pas The Hollow Crown, je conseille) et je me disais que l’acteur qui joue Richard II méritait une récompense pour ce rôle, parce qu’il est simplement extraordinaire[1][2]. Je suis donc allée traîner sur sa page Wikipédia et en bonne Wikimédienne, j’ai décidé de l’améliorer un peu : pour le moment[3] j’ai surtout nettoyé le code et arrangé un peu l’accessibilité pour les lecteurs d’écran. À défaut de le labelliser tout de suite, je me suis dit que ce serait sympa de compléter correctement son entrée Wikidata. C’était le début. Comme je le disais, tout est de la faute de Ben Whishaw.

Ben_Whishaw
Ben Whishaw en 2008 par KikeValencia – CC-BY-SA

Wikidata : petites modifications

Au début, ça avait l’air simple, il fallait juste mettre des occupations plus précises (il n’est pas juste « acteur », mais acteur de théâtre, de télévision, de cinéma…). Il a reçu un paquet de récompenses, qu’il importait de lister (P166), et pour chacune d’entre elles ajouter l’année où il l’a reçue (P585) ainsi que l’œuvre concernée (P1686), voire avec qui il a partagé la récompense (P1706). Et on peut faire pareil pour celles pour lesquelles il a juste été nommé (P1411) mais n’a pas gagné. Et on peut aussi lister tous ses rôles, ce qui ne se fait pas sur son entrée Wikidata à lui mais en utilisant P161 « distribution » avec la valeur « Ben Whishaw (Q342617) » sur les entrées des œuvres en question. Parfois on peut même qualifier l’information en utilisant P453 (rôle) quand le personnage lui-même a une entrée Wikidata (par exemple Q dans James Bond[4]).

Jusque-là, rien que de très facile. Bon, le truc, c’est que Whishaw au départ, c’est un acteur de théâtre. Je veux dire, il s’est fait connaître vers 23 ans en jouant Hamlet[5] à l’Old Vic. C’est un peu étrange de voir ainsi listés tous ses rôles télévisuels et pas ses performances théâtrales (Mojo, Bakkhai…). Donc j’ai commencé à creuser un peu côté théâtre et laissez-moi vous dire que le théâtre sur Wikidata… ben c’est au moins autant le bazar que sur Wikipédia. C’est dire.

Old_Vic_Theatre
Old Vic Theatre par MrsEllacott – CC-BY-SA 3.0.

Ce serait l’endroit idéal dans ce billet pour vous parler des ontologies, du web sémantique et des questions d’organisation du savoir mais le consensus parmi les gens ayant relu ce billet est qu’il est déjà bien assez long et que je ferais mieux de me concentrer sur la RADA (qui se fait attendre) et de parler de ça une autre fois.

L’Internet Broadway Database

Pendant que j’étais donc en train de réfléchir aux relations entre « art », « œuvre », « genre » et « performance », j’ai appris que Whishaw était en ce moment à Broadway où il joue John Proctor dans The Crucible d’Arthur Miller dans une mise en scène d’Ivo van Hove[6]. Or Broadway a une très bonne base de données (IBDB, Internet Broadway Database). Bien fichue, relativement complète, avec un nombre d’erreurs relativement restreint, bref le bonheur. Et encore mieux, Wikidata a déjà des propriétés pour lier des entrées à cette base (et pas que pour les humains, il y a les mêmes pour les théâtres, pour les œuvres et pour les productions)[7].

Walter Kerr Theatre, , publicité pour Grey Garden - Michael J Owens CC-BY 2.0
Walter Kerr Theatre, , publicité pour Grey Garden – Michael J Owens CC-BY 2.0

Évidemment, personne n’avait encore exploité cette base proprement et il y avait pas mal d’erreurs dans les utilisations wikidatiennes. J’ai donc nettoyé tous les usages de ces propriétés sur Wikidata. Et sur Wikipédia, parce que les erreurs viennent de là[8]. J’ai râlé contre les Wikipédien⋅ne⋅s qui sourcent n’importe comment (ou ne sourcent pas), qui ne sont pas philosophiquement choqué⋅e⋅s quand iels associent une œuvre à l’identifiant d’une production voire qui pensent que l’identifiant IMDB (Internet Movie Database) est le même que l’identifiant IBDB (ahah NON) mais, comme je suis Wikimédienne, j’ai nettoyé malgré tout.

J’en suis arrivée à la conclusion que ce serait encore mieux si au lieu d’avoir quelques liens corrects on liait vraiment toutes les entrées. Passer de « j’ai-bossé-sur-Ben-Whishaw-donc-j’ai-cherché-son-identifiant-IBDB » à « voici la liste complète des identifiants IBDB, trouvons leurs entrées Wikidata correspondantes ». Joie des joies, il existe un outil merveilleux du nom de Mix n’ Match[9]. Là encore je pourrais faire une présentation détaillée de cet outil mais dans le cadre de cet article je vais me contenter de dire qu’il nécessite de récupérer au préalable la totalité des identifiants valides de la base de données à lier à Wikidata, ce que j’ai donc commencé à faire (et je remercie pour cela Ash_Crow[10], Dereckson[11] et Rama[12]). Récupérer tous ces identifiants prend du temps (pour le moment je n’ai importé que la partie de la base sur les œuvres, si vous voulez aider[13]). Il fallait que je m’occupe en attendant que les scripts finissent de tourner. C’est là que j’ai remarqué que Ben Whishaw (oui, parce que c’est toujours de sa faute) avait été étudiant de la RADA (Royal Academy of Dramatic Art)[14].

La RADA

Présentation

Le truc cool sur Wikidata[15] c’est que non seulement on peut indiquer (P69) où les gens ont fait leurs études, mais en plus on peut apporter plein de précisions : la date de début (P580), celle de fin (P582), le diplôme préparé (P512), la principale spécialité d’études (P812)… Il n’y avait pas de sources. Ça m’a énervée. Je suis allée en chercher. Et là… RADA !

RADA Theatre, Malet Street, Londres -- CC-BY-SA 2.0
RADA Theatre, Malet Street, Londres — CC-BY-SA 2.0

Oui. La RADA a mis en ligne les profils de ses anciens élèves. Voilà la fiche de Whishaw pour les curieu⋅ses⋅x[16]. Bref, je cherchais une source et je suis tombée sur une mine d’or. Là, la Wikimédienne en moi s’est dit : non mais attends, tu ne vas pas sourcer que pour Whishaw, tu vas pouvoir sourcer tous les anciens étudiants avec à chaque fois leur année de diplôme, leur diplôme et tout ça et faire plein de statistiques démentes à partir de requêtes SPARQL ! (et puis ça t’occupera le temps que tu récupères les identifiants de tous les gens ayant un jour bossé dans un spectacle à Broadway).

Naïvement, je me suis dit que la RADA n’avait pas tant d’élèves que ça par année et que ça ne prendrait donc pas un temps fou[17]

Identification des éléments concernés

Sur Wikidata

Pour commencer j’ai essayé de savoir ce qui existait déjà sur Wikidata. J’ai donc fait une petite requête pour trouver la totalité des éléments Wikidata ayant P69:Q523926 (scolarité à la Royal Academy of Dramatic Art). J’ai croisé avec la catégorie anglophone. En fait, quelqu’un a, il y a quelques mois, ajouté P69:Q523926 sur tous les éléments catégorisés comme « Alumni of the Royal Academy of Dramatic Art »[18]. Bref, comme à l’époque je n’avais pas encore l’intention d’écrire ce billet de blog, il y en avait environ 650, avec relativement peu d’écart entre WD et la catégorie anglophone (donc peu d’entrées WD sans articles sur WP:en a priori). Il y avait plus d’éléments sur Wikidata que dans la catégorie anglophone mais toutes les entrées de la catégorie sortaient bien dans la liste Wikidata.

Pour suivre mon avancement, je n’ai donc à faire que deux requêtes : la première pour lister les étudiants de la RADA, la deuxième pour lister les étudiants de la RADA avec une date de sortie de l’école.

En WikidataQuery, parce que c’est tellement simple que ce n’est pas la peine de sortir SPARQL ça donne[19] :

et

Simple.

Il y avait déjà quatre ou cinq élèves où l’information « date de sortie de l’école » était déjà présente mais il n’y avait soit pas de source, soit une source autre que celle de la RADA. J’ai décidé de ne pas m’en soucier et que je les traiterais en même temps que les autres.

Sur Wikipédia

J’avais déjà constaté que la totalité des articles de la catégorie anglophone « Alumni of the Royal Academy of Dramatic Art » avait la propriété P69 « scolarité » avec la valeur RADA sur Wikidata. Je sais aussi qu’il y a plus d’entrées marquées sur WD que dans la catégorie : le décalage vient-il d’articles anglophones non catégorisés[20] ou d’entrées Wikidata sans article correspondant en anglais[21] ?

La catégorie existe dans d’autres langues que l’anglais : en espagnol, en arabe, en français, en latin, en polonais, en russe, en anglais simplifié, en turc et en chinois. Mais un survol de chacune de ces catégories m’a indiqué qu’elles sont beaucoup moins remplies que la catégorie anglophone (assez logique pour une école londonienne) et qu’il est donc peu probable qu’elles me servent beaucoup.

Cependant, il n’y a pas que la catégorie pour repérer les étudiants. WP:en a aussi une liste (List of RADA alumni). Cette liste[22] est intéressante car elle indique entre parenthèses l’année d’obtention du diplôme, ce qui est une information absente de la catégorie.

Par contre, il aurait été trop demander que la totalité des entrées de la catégorie soient présentes dans la liste, ou que la totalité des entrées de la liste soient dans la catégorie… Oui, vous avez bien lu, les deux systèmes de la Wikipédia anglophone ne se recoupent pas.

Identifions : de la RADA vers Wikidata

Le plus simple pour commencer me paraissait de partir de la base RADA et de regarder s’il y avait une correspondance sur WD/WP : en effet, même si beaucoup d’étudiant⋅e⋅s de la RADA sont devenus connu⋅e⋅s, iels n’ont pas tou⋅te⋅s un article Wikipédia, il ne faut pas exagérer. Dans un monde idéal où Wikipédia et Wikidata seraient complètes après avoir fini de vérifier toutes les entrées de la RADA je devrais être passée sur les 700 et quelques entrées Wikidata déjà repérées. Mais comme Wikipédia et Wikidata n’ont jamais prétendu être complètes, je me doutais avant de commencer que j’aurais des pertes.

Recherche artisanale par nom

Au début, je me suis dit que j’allais simplement chercher dans Wikidata chaque nom d’élève listé sur le site de la RADA et vérifier si je l⋅a⋅e trouvais. En commençant par 1906, qui est la première année avec des diplômé⋅e⋅s[23] vu que l’école a été fondée en 1904.

Très vite, les premiers problèmes sont apparus avec cette méthode artisanale.

En 1907 par exemple, la⋅e seul⋅e élève est « H Bentley ». Le système de recherche de Wikidata fait que si je fais une recherche sur ce nom, je n’aurai comme résultat que les « H Bentley » et « H. Bentley » (et pas Henry, Harriet ou autres). Si j’ai de la chance, quelqu’un aura pensé à ajouter « H Bentley » en alias de l’élément Wikidata et iel sortira dans la recherche. Si je n’en ai pas, je suppose que je peux toujours faire une requête de la forme :

(lien vers la requête autolist) et espérer que quelque chose en sorte[24]. Je peux aussi rechercher « Bentley » et passer rapidement sur toutes les entrées… Bref, l’identification n’est pas simple.

Fautes d’orthographe et la base mal remplie

D’autant qu’il peut y avoir des fautes d’orthographe dans la base RADA : je suis quasiment certaine que Joan Mibourrrne n’a pas en réalité trois R dans son nom de famille ou Dorothy Reeeve trois E.

Desmond Llewellyn[25] est par exemple entré dans la base RADA sous le nom de Desmond Wilkinson (il s’appelle Desmond Wilkinson Llewellyn d’après l’article en anglais, ce qui n’est même pas présent sur l’article en français). En fait ce n’est pas tout à fait vrai : lui est entré à la fois sous le nom de « Desmond Llewellyn » (fiche ici) et sous le nom de « Desmond Wilkinson ». Oui, il a deux fiches la même année.

Desmond Llewelyn en 1983 - Towpilot CC-BY-SA 3.0
Desmond Llewelyn en 1983 – Towpilot CC-BY-SA 3.0

Les doublons dans la base sont nombreux : la probabilité que deux étudiantes différentes, nommées Alison James et Allison James, soient diplômées toutes les deux en 1954 me semble assez faible.

Les homonymes

Même sans faute d’orthographe, si on trouve un homonyme, ce n’est pas nécessairement correct. Rose Hersee, étudiante de 1908 n’est pas Rose Hersee, la chanteuse née en 1845. Oui, il faut vérifier. Dans nombre de cas, cela a signifié aller fouiller l’article Wikipédia (qui parfois mentionne la RADA ! Parfois même avec des sources !) et surtout les sources de ces articles (pour la première moitié du XXe siècle, cela a essentiellement signifié lire des dizaines de nécrologies). Parfois, bingo ! le lien pouvait être fait. Parfois le non-lien pouvait être fait. Dans nombre de cas, je n’ai pas pu trancher avec une recherche de ce type parce que les profils de la RADA avant le XXIe siècle sont pour le moins sommaires.

Il peut y avoir plusieurs élèves de la RADA avec le même nom, ou des cas où la même personne a suivi plusieurs formations (surtout le cas dans les diplômes techniques, où certains noms reviennent). Côté Wikidata les homonymies sont légion (surtout avec des noms comme « John Jones »…), donc il faut parfois fouiller dans plusieurs centaines de résultats pour trouver la personne la plus probable (et remercier au passage les personnes qui remplissent les descriptions[26]).

Les pseudonymes

Iels ont des pseudonymes. Un nombre impressionnant de femmes sont devenues connues sous le nom de leur mari, et personne n’a mis en alias leur nom de naissance. Un nombre impressionnant a simplement pris un pseudonyme (Conrad Havord est devenu connu sous le nom de « Conrad Phillips » par exemple). Parfois c’est l’inverse, iels se sont inscrits à la RADA avec un pseudonyme/nom d’épouse/surnom et l’article Wikipédia a conservé le nom de naissance (par exemple, June Flewett est inscrite à la RADA sous le nom de Jill Freud, son diminutif et le nom de famille de son mari). J’aime beaucoup aussi Priya Rajvansh inscrite à la RADA sous le nom de Vera Singh. Tous ces cas ne sont identifiables que si quelqu’un a pensé à mettre les alias sur Wikidata[27]. Et parfois il y a des cumuls de pseudonymes plus fautes d’enregistrement, comme dans le cas de Kay Hammond (nom de scène), dont le véritable nom est « Dorothy Katherine Standing » mais qui est enregistrée à la RADA comme « Kathrine Standing », ce qui ne facilite pas l’identification puisque ne ressortant pas dans les recherches sur Wikidata.

Est-ce que Jean Rhys, née « Ella Gwendolen Rees Williams » en 1890 et ayant utilisé nombre de pseudonymes, est Ella Reeve, l’étudiante de la RADA diplômée en 1909[28] ? Vern Agopsowicz est devenu connu sous le nom de John Vernon… Je pourrais continuer longtemps.

Henry Darrow et John Vernon - Domaine public aux États-Unis
Henry Darrow et John Vernon – NBC Television, Domaine public aux États-Unis

Arkanosis à la rescousse

À ce stade Arkanosis a eu pitié de moi et m’a créé un script pour faciliter le travail (avec une retouche par Ash_Crow pour être encore plus simple pour moi après) :

         » > list-$profile-$year.html wget -q ‘https://www.rada.ac.uk/profiles?search=’$profile’&yr-acting=’$year’&yr-technicaltheatrearts=’$year’&crs-technicaltheatrearts=&yr-theatrelab=’$year’&yr-directing=’$year’&crs-directing=&fn=&sn=’ -O – | \ sed -n ‘s@.*fn=\([^&]*\).*sn=\([^ »&]*\).*@\1 \2@p’ | \ while read firstname lastname; do echo  »

      • $firstname $lastname wikidata » wget -q ‘https://www.wikidata.org/w/api.php?action=query&list=search&srwhat=text&srsearch=’$firstname’+’$lastname -O – | \ sed -n ‘s@.*title&.*\(Q[0-9]\+\)&.*@\1@p’ | \ while read qid; do if grep -q $qid unhandled.lst; then echo  » $qid » fi done echo « 

 

 » done >> list-$profile-$year.html echo  »  » >> list-$profile-$year.html

Les urls de la base RADA étant systématiquement de la forme année/prénom/nom[29], il en a simplement extrait des listes par année avec un élève par ligne, sous la forme :

  • Nom de l’élève (lien vers la fiche RADA) / Wikidata (lien qui pointe sur la page de recherche avec ce nom) / éventuels Qid qui sont sortis dans le 2e lien et qui donnent aussi un résultat dans la liste des P69:Q523926 (déjà listés comme élèves de la RADA)

Par exemple une ligne pour un élève de la formation « acting » en 1947 est :
harold goodwin wikidata Q1585750

Toutes les lignes n’ont pas de Qid, loin de là (les lignes avec sont même largement minoritaires). Tous les Qid ne sont pas corrects : comme je le disais, il y a quelques homonymes à la RADA ; ou alors le système de recherche de Wikidata a pour une fois ratissé trop large et sorti des combinaisons prénom/nom qui ne correspondent pas à la fiche RADA (par exemple une recherche sur Romany Evens suggère George Bramwell Evens sur Wikidata). Néanmoins, l’immense majorité des lignes avec un Qid a effectivement permis de repérer de véritables étudiant⋅e⋅s tandis que le pourcentage était bien plus faible sur les lignes sans Qid pré-suggéré. Merci encore à Arkanosis.

Même avec ces listes pré-établies, n’ayant plus qu’à cliquer sur les liens au lieu de faire un copié-collé à la main, il a fallu passer manuellement sur toutes les entrées[30]. Le problème de tirer les noms des url, c’est aussi la non-gestion des apostrophes et des espaces. Une recherche de peter otoole sur Wikidata ne renvoie pas Peter O’Toole par exemple.

Conclusion de la RADA vers Wikipédia

Un certain nombre d’entrées ont pu être identifiées (835 très exactement à la fin du travail sur scripts) mais la majorité des élèves listés de la RADA n’ont renvoyé aucun résultat (on s’y attendait) et un nombre important n’a renvoyé que des résultats incertains. J’ai ainsi pour le moment 442 lignes dans un tableur avec une entrée RADA et une entrée Wikidata potentielle, en attente de sources pour confirmer, et ce alors que je n’ai pensé à les lister que lorsque j’avais déjà traité un bon quart de la base : on parle donc de plusieurs centaines de cas où une recherche plus approfondie va être nécessaire.

Aparté sur les féminins

À force de regarder les éléments sur des act⋅rices⋅eurs, je me suis aperçue qu’un grand nombre d’actrices avaient une description en anglais de la forme « Nationalité actor ». Quelqu’un a fait passer un robot pour compléter automatiquement les descriptions et ne s’est pas aperçu que cela mettait une description au masculin y compris sur les femmes.

Donc j’ai requêté le nombre d’entrées Wikidata avec genre (P21) féminin (Q6581072) et une description en « % actor », j’ai mis tout ça dans un csv, que j’ai passé dans CSVtoQuickStatements, puis dans QuickStatements[31], et quelques dizaines de milliers de modifications plus tard j’aimerais vous rappeler de bien faire attention lorsque vous codez vos scripts, ou de vous relire après coup. Merci.

Identifions : de Wikipédia vers la RADA

J’ai commencé à regarder les étudiant⋅e⋅s présent⋅e⋅s sur WP mais pas dans la liste traitée sur WD. Le grand retour de la méthode artisanale !

Dans un monde parfait, une fois fini de traiter les scripts, le nombre d’entrées Wikidata marquées comme élèves de la RADA et le nombre d’entrées marquées comme élèves de la RADA avec une date de fin de renseignée (et donc ayant un lien vers la base RADA comme source) aurait dû correspondre. Le monde n’étant pas parfait, il nous reste alors plus de gens que Wikipédia indique comme élèves qu’il n’a été possible d’identifier du côté de l’école. Il y a un certain recoupement avec les lignes du tableur précédemment mentionné, mais pas si important : l’essentiel du tableur est constitué d’act⋅rices⋅eurs pour lesquel⋅le⋅s il ne m’a pas été possible de trouver une mention de leur école.

En utilisant autolist, il est possible de demander la liste des entrées présentes dans la catégorie de WP:en et ne répondant pas à la requête « claim[69:523926]{claim[582]} »

Cela donnait 132 résultats, sur lesquels je suis passée manuellement. Ce passage a permis d’identifier 23 personnes de plus (pseudonymes ou noms de naissance pour les femmes essentiellement, présents dans le texte des articles, mais non renseignés en alias sur Wikidata : la recherche sur ce site de ces noms-là ne renvoyait pas aux articles Wikipédia correspondants).

Fin avril, la catégorie anglaise comptait 907 entrées, Wikidata 953 entrées et seules 835 entrées avaient en réalité été traitées proprement avec une véritable source. De plus il ne faut pas oublier que toutes les entrées Wikidata ne correspondent pas à un article sur la Wikipédia en anglais : un certain nombre d’act⋅rices⋅eurs ont des entrées sur des Wikipédias en d’autres langues mais pas sur l’anglophone et une petite dizaine n’a pas d’article Wikipédia associé du tout, leur entrée Wikidata ayant souvent été créée dans ce cas pour remplir complètement la distribution d’un film.

lien vers la requête des cas à traiter.

Les incohérences

La liste à traiter provient essentiellement de la Wikipédia en anglais : la requête SPARQL (sur Wikidata mais sans date de fin) signalait 112 erreurs fin avril quand la requête autolist (dans la catégorie anglophone mais sans date de fin sur Wikidata) n’en renvoyait que 110 (et l’un d’eux correspond à un article depuis supprimé de WP:en). Je n’ai pas vérifié systématiquement la centaine d’historiques concernés mais à chaque fois que j’ai regardé, j’ai pu confirmer que l’information était arrivée sur Wikidata lors de l’import massif de la catégorie.

Le travail consiste désormais soit à trouver sous quel nom la personne a été enregistrée côté RADA (puisqu’il y a des fautes de frappe, par exemple) ou à trouver d’où peut bien provenir l’erreur. Ash_Crow a ainsi corrigé George Bernard Shaw catégorisé comme étudiant alors qu’il a légué une partie de son héritage à la RADA[32]. Pour Armaan Kirmani, son entrée IMDB indique qu’il a été l’élève d’un enseignant de la RADA, ce qui ne signifie pas qu’il y a étudié non plus…

Homme barbu, photo en noir et blanc
George Bernard Shaw en 1915 – Domaine public aux États-Unis

Dans cette centaine de cas problématiques, il y a un peu tous les cas de figure, de ceux qui ne mentionnent pas du tout la RADA, à ceux qui disent clairement que la personne y a étudié mais sans citer de sources[33], voire à ceux qui sourcent avec une déclaration qui n’est pas si claire que ça. En effet, la RADA ne propose pas que des formations longues diplômantes : elle organise aussi un certain nombre de stages et ateliers. Si un⋅e actrice⋅eur a participé à un stage de deux jours à la RADA, iel n’apparaîtra pas dans la base RADA des ancien⋅ne⋅s élèves mais iel pourra déclarer sincèrement en interview qu’iel a appris tel truc à la RADA… d’ici à ce qu’un⋅e Wikipédien⋅ne enthousiaste décide que ça fait d’ellui un⋅e ancien⋅ne élève, il n’y a qu’un pas. Par exemple Ash_Crow a trouvé une source (même si de qualité douteuse) affirmant qu’Émilie Rault avait bien étudié à la RADA mais elle n’est nulle part dans la base parce qu’il est extrêmement probable qu’elle n’a fait qu’y suivre des stages vu qu’elle était en master de musicologie à la Sorbonne en même temps. Ce qui pose la question de l’utilisation de la propriété « scolarité » sur Wikidata : doit-on la réserver pour les formations diplômantes ou accepter y compris jusqu’aux stages de quelques jours ?

Les écarts entre la liste et la catégorie

Comme préalablement signalé, la « List of RADA alumni » ne correspond pas à la liste de la catégorie. Systématiquement, à chaque fois que j’identifiais une personne et l’article associé, j’ai ajouté son nom dans la liste et je l’ai catégorisé correctement. Je n’ai cependant pas encore trouvé le courage de vérifier les deux listes proprement pour identifier les décalages. La liste manuelle devrait être plus complète que la catégorie, puisque comprenant également des liens rouges (non existant sur la Wikipédia en anglais) avec des liens vers l’article dans d’autres langues.

Xavier Combelle ayant eu l’amabilité de lister les différences entre la catégorie et la liste début mai, il reste bien dans la catégorie la centaine de cas problématiques précédemment évoqués (non présents dans la liste donc) et dans la liste, outre les liens rouges tout à fait normaux, dix-huit articles non catégorisés. Aucun d’entre eux ne renvoie de lien évident avec une entrée de la RADA, à l’exception de Xenia Kalogeropoulou qui a pu être identifiée avec Xenia Calogeropoulos et être catégorisée dans la foulée. Parmi ces cas, certains articles Wikipédia évoquent explicitement que la formation à la RADA a pris la forme d’ateliers ou de stages. Nous revenons à la question : quel cursus faut-il avoir suivi pour être considéré⋅e comme un⋅e ancien⋅ne étudiant⋅e ?

Les problèmes sur la base RADA

Une fois listés tous les problèmes côté Wikipédia/Wikidata (qui peuvent se résumer à : des gens ajoutent des informations sans sourcer et celles-ci se répandent ensuite partout[34]), force est de constater qu’une partie des problèmes provient de la base RADA.

Complétude des données

Comme nous l’avons déjà constaté, la base est remplie de doublons, chaque pseudonyme ou graphie de nom créant une nouvelle page au lieu de se centraliser avec une page par élève. Cela pose évidemment un problème si nous sommes intéressé⋅e⋅s par le nombre d’étudiant⋅e⋅s par année par exemple.

Du point de vue wikidatien, cela empêche également la solution simple de créer une entrée par élève, indépendamment de la présence d’un article Wikipédia. La base de données de Cambridge par exemple, attribue un identifiant fixe par élève, ce qui a permis l’importation complète de ces identifiants sur Wikidata, au besoin en créant les entrées manquantes (P1599: ID de la Cambridge Alumni Database)[35]. Si la RADA avait choisi la solution d’un identifiant/élève au lieu d’url de la forme diplôme/année/prénom/nom, il aurait été plus facile de l’importer entièrement.

Ce qui nous amène au point suivant : il n’est pas du tout certain que la base soit actuellement complète. Rien n’est indiqué en ce sens sur le site. Un petit tour sur la Wayback Machine d’Internet Archive nous montre que la base n’est en ligne que depuis 2015, auparavant seul⋅e⋅s les élèves en cours d’études avaient un profil sur le site. S’il semble donc très probable que les données les plus récentes soient complètes (à partir de 1999, où les profils sont détaillés et accompagnés de photographies), les profils des années antérieures sont parfois très sommaires. Surtout, certaines années semblent étrangement vides d’élèves, comme 1988.

Serait-il possible que dans la centaine de cas listés comme élèves de la RADA qui n’ont pu trouver de correspondance dans la base il y ait des oublis ? Un des cas qui me font douter est celui de Noel Streatfeild qui d’après son site internet aurait été acceptée comme élève en 1919. J’ai bien trouvé un⋅e « Noel Goodwin » diplômé⋅e en 1922 mais est-ce elle ?

Un cas encore plus explicite est celui de Dora Mavor Moore, qui d’après cet article biographique a été la première Canadienne acceptée à la RADA et aurait été diplômée en 1912. Le problème, c’est que côté RADA, un seul élève a été diplômé cette année-là et « Leonard Notcutt » n’est pas un pseudonyme connu de Dora Mavor Moore.

Fiabilité des données

Le problème avec probablement le plus d’impact, c’est que certain⋅e⋅s des élèves listé⋅e⋅s dans la base RADA en sont sorti⋅e⋅s avant d’être diplômé⋅e⋅s. Quelqu’un comme Harold Pinter a bien une fiche RADA disant qu’il fait partie de la promotion de 1949. En fait, Pinter est entré à la RADA en 1948 et a abandonné le cursus en 1949, avant d’être diplômé donc. La RADA liste-t-elle ses ancien⋅ne⋅s élèves indépendamment du fait qu’iels aient achevé leur cursus ? Dans Wikidata ces cas sont gérés en entrant un « no value » au lieu d’une valeur personnalisée dans le champ du qualificatif « diplôme » de la propriété « scolarité ».

Il est tout de même un peu problématique que nous ne puissions pas faire confiance à l’école elle-même pour savoir qui en a été diplômé⋅e…

J’ai un autre problème avec la fiche RADA de Sheila Terry qui me semble correspondre à Sheila Terry sur Wikipédia. Il est à peu près certain qu’elle n’a pas mis les pieds à Londres pendant ses études ; d’après WP, elle les aurait faites à la Dickson-Kenwin academy, une école « affiliée » à la RADA. Est-ce à dire que cette école délivrait alors le diplôme de la RADA ? (oui, avant la réforme des années 2000, la RADA délivrait ses propres diplômes). Là encore, je manque d’informations.

J’ai un certain Jack May de la promotion de 1943 dont l’article Wikipédia en anglais dit explicitement qu’il a été reçu à la RADA et n’y est jamais allé

Bref, ce n’est pas simple, même lorsque les personnes en question sont identifiées !

Requêtes et statistiques marrantes

Tout ceci étant dit, nous avons malgré tout un échantillon intéressant avec 835 entrées. Cela ne correspond pas à tous les élèves de la RADA, loin de là, mais c’est un nombre suffisant pour pouvoir commencer à s’amuser un peu avec les requêtes SPARQL !

Nombre d’élèves avec entrée WD par année

Commençons tout simplement par demander la liste complète des élèves de la RADA avec une date de fin d’études :

lien vers la requête ce qui nous permet de faire ce joli graphique :

Nombre d'élèves de la RADA ayant une entrée Wikidata par année
Nombre d’élèves de la RADA ayant une entrée Wikidata par année

Âge moyen à la sortie d’école

Toujours sur l’échantillon wikidatien, maintenant que nous savons quand iels sont sorti⋅e⋅s de l’école, à quel âge l’ont-iels fait ? Cela suppose que leur date de naissance est renseignée sur Wikidata, ce qui réduit encore un peu notre échantillon.

lien vers la requête

Ou même une requête plus avancée : l’âge moyen à la sortie de l’école, selon les années, le genre (masculin ou féminin, aucun autre genre déclaré dans notre échantillon), avec indication du nombre de personnes concernées par année :

lien vers la requête. Il y aurait une pyramide des âges à faire si je n’étais pas si flemmarde.

Combien de nationalités ont été représentées à la RADA ?

lien vers la requête qui affiche donc la liste des nationalités avec à chaque fois le nombre d’élèves concerné⋅e⋅s, classé de la plus représentée (étonnamment[36], les Britanniques) à la plus rare. Plus d’une trentaine de nationalités ont donc été représentées à la RADA !

Nombre d’étudiants de la RADA ayant joué dans un James Bond

lien vers la requête.
Ce qui représente quand même plus d’une quarantaine de personnes, ce n’est pas rien !

Conclusion

  1. Je n’ai pas fini ;
  2. J’espère que l’archiviste de la RADA est sympathique ;
  3. Les gens, sérieusement, importez les alias sur Wikidata ;
  4. Et vos sources. C’est bien, les sources ;
  5. Et photographiez Ben Whishaw, on manque cruellement d’images libres ;
  6. On peut quand même faire des requêtes amusantes non[37] ?

(image à la une : Fronton de la RADA, par Chemical Engineer, CC-BY-SA 3.0)

Enregistrer

  1. Il n’est pas le seul, Rory Kinnear est excellent aussi en Bolingbroke (et Patrick Stewart ♥) mais Bolingbroke est intéressant dans la pièce de Shakespeare, alors que Richard II, c’est le type qui se tape de longues tirades sans qu’il ne soit ni clairement un gentil auquel s’attacher, ni clairement un méchant qu’on pourrait détester. Dans mon expérience, selon les adaptations, c’est soit un personnage saoulant, soit un personnage tellement mal joué qu’il en devient ridicule. Il ne commence à acquérir une certaine dimension qu’à l’acte IV ce qui est un peu tard, avouez-le. Sauf que Whishaw en enfant-roi-devenu-adulte-mais-pas-vraiment, tour à tour capricieux et christique, m’a rendu ce personnage vivant bien avant ce fameux Acte IV. Je pourrais faire un billet de blog entier sur The Hollow Crown, acteurs, costumes et décors (et la cinématographie ! une des grandes réussites aussi) mais il paraît que je suis là pour vous parler de Wikidata et de la RADA et vous verrez que ce sera bien assez long à venir comme ça). []
  2. En fait il a eu un BAFTA pour ce rôle, comme quoi mon opinion a été quelque peu partagée. []
  3. Oui, j’ai vaguement commencé à récupérer des sources pour rédiger correctement l’article mais 1. je n’ai jamais écrit d’article sur une personne vivante 2. j’ai été un peu occupée depuis, comme vous allez le voir dans le reste de l’article. []
  4. Oui, parce qu’il joue aussi dans James Bond et y a d’ailleurs un nombre impressionnant d’actrices/eurs shakespearien⋅ne⋅s dans les derniers James Bond. []
  5. Parce que Richard II n’était pas son premier rôle shakespearien, ni même son deuxième, vu qu’il a aussi joué Ariel dans l’adaptation de La Tempête avec Helen Mirren en Prosper(a). []
  6. Vous vous en fichez peut-être, mais là, j’ai juste envie d’aller à Broadway. Bref. []
  7. Oui, j’ai créé l’item Wikidata de la production actuelle. []
  8. Dans mon expérience, s’il y a une erreur sur Wikidata, elle vient presque toujours de Wikipédia et l’IBDB ne faisait pas exception. []
  9. Et qui existe en version jeu de téléphone portable, pour ceux qui veulent jouer à améliorer Wikidata sur leur téléphone portable (et qui ont un téléphone portable qui va sur internet). []
  10. pour le python []
  11. pour le serveur []
  12. pour le soutien moral et avoir regardé The Hollow Crown avec moi []
  13. Il faut associer le bon élément Wikidata à chaque entrée de l’IBDB ou marquer l’élément comme à créer. []
  14. Qui a dit : « enfin ! » ? []
  15. En fait, il y a plein de trucs cools sur Wikidata. []
  16. Où l’on apprend qu’il pratiquait le « cat breeding », information importante s’il en est et que non, je n’ai pas encore réussi à entrer dans Wikidata. Je suis déception. []
  17. Je suis quelqu’un d’optimiste. []
  18. Ou comment importer sur Wikidata les erreurs des Wikipédias (voir note 7). []
  19. En utilisant Autolist bien sûr. []
  20. Spoiler : oui, en partie. []
  21. Spoiler : oui, aussi. []
  22. Liste qui est sous forme manuelle et non de tableau, ce qui est une hérésie car ne permettant pas facilement un tri par année. []
  23. En l’occurrence, un seul. []
  24. Spoiler : non. []
  25. Parce que Whishaw n’est même pas le premier étudiant de la RADA à avoir joué Q dans James Bond. []
  26. Les descriptions, c’est bien, mangez-en. []
  27. Les alias, c’est bien aussi, mangez-en. []
  28. Dans ce cas précis c’est probable mais pas certain. Certains cas sont bien plus douteux. []
  29. Merci à la RADA d’avoir fait ça proprement. []
  30. Tout compte fait, il y en a quand même beaucoup. []
  31. Outils qui mériteraient aussi une présentation détaillée. []
  32. Ce qui est fort aimable de sa part mais n’en fait pas un étudiant. []
  33. Par exemple Margaret Rutherford : un compte ajoute sommairement l’information sans source en 2008, ce qui conduit la page à être catégorisée en 2010… []
  34. C’est une épidémie. []
  35. Mix n’ Match permet de marquer un identifiant comme nécessitant la création d’une entrée Wikidata. []
  36. Ou pas. []
  37. Et des notes de bas de page, qui sont quand même la partie la plus intéressante de ce billet. []

À la recherche des communes françaises sur Wikidata

J’ai eu besoin récemment d’obtenir la liste des communes françaises avec leur identifiant Wikidata. Cette liste change constamment : si la France compte toujours un peu plus de 35 000 communes, le nombre exact change plusieurs fois par an, les communes fusionnant ou étant séparées à un rythme difficile à suivre. Il y a même un article de Wikipédia dédié aux nombre de communes en France. Si on peut s’y fier, il y en a donc très exactement 35 884 au moment où j’écris ces lignes, et une autre fusion entrant en vigueur mardi 1er mars (entre Binic et Étables-sur-Mer), il y aura à ce moment une commune de moins.

L’article n’est cependant pas clair sur ce qui est supposé être inclus dans ce décompte : la métropole uniquement ? Les DOM sont-ils inclus ? Et les COM ? Avant de me pencher plus en détails là-dessus, allons-voir combien ce qu’en disent d’autres sources.

Une liste officielle des communes de la métropole et des DOM[1] est publiée chaque année par l’Insee dans le Code officiel géographique (COG) mais la dernière version publiée est celle de 2015. Le fichier, dont on voit un extrait ci-dessous, compte 36 658 entrées , ce qui est cohérent avec les données annoncées par l’article de Wikipédia pour 2015…

Par curiosité, je regarde aussi du côté d’OpenStreetMap qui, de son côté, fournit sur data.gouv.fr un export du découpage des communes françaises. D’après sa description, il est à jour au 1er février 2016, et contient le titre des articles Wikipédia. C’est un fichier shapefile dont il est très simple d’extraire la liste des codes Insee et le titre des articles Wikipédia correspondants grâce à la librairie python qui va bien et un tout petit bout de code. Surprises, il contient 35 888 communes, soit deux de trop comparé à Wikipédia[2], et pour 282 d’entre elles, il manque le lien vers l’article de Wikipédia.

Mais revenons à Wikidata, qui devrait avoir 35 934 communes, en comptant les TOM. Vérifions avec SPARQL :

http://tinyurl.com/gm4xdyt

Le résultat que j’obtiens est de 38 663 communes. C’est 2729 de trop… C’est dû aux anciennes communes, fusionnées ou supprimées depuis. Pour obtenir la liste à jour, il me faudrait donc faire un filtre sur la présence d’un qualificateur « Date de fin (P582) » sur la déclaration « wdt:P31 wd:Q484170 ».  Sauf qu’en faisant ça… J’obtiens 37 475 résultats : la date de fin n’est manifestement pas correctement indiquée de manière systématique. Il semble également y avoir quelques îles marquées comme commune alors qu’un élément séparé existe pour celle-ci.

Bon, plus qu’à se retrousser les manches et corriger tout ça…

Histoire de dégrossir le travail, je vais commencer par passer sur toutes les communes sans code Insee ni date de fin et corriger ce qui cloche :

http://tinyurl.com/hkoqlho

Pour chaque commune : je vérifie la date de fusion ou suppression indiquée dans Wikipédia, et je reporte l’info dans Wikidata. Si c’est devenu une commune associée, je l’indique également et j’en profite aussi pour supprimer la nature « ancienne commune française » qui est présente sur une poignée d’éléments et ne devrait tout simplement même pas exister… Ça donne un résultat comme ça et si vous voulez venir me filer un coup de main, vous êtes les bienvenus 🙂

(Image à la une : Le port de Binic, ou plutôt maintenant Binic-Étables-sur-Mer, CC-BY-SA-3.0 Semnoz)

  1. excluant donc les 48 communes de Polynésie française et les deux de Saint-Pierre-et-Miquelon []
  2. deux et non quatre, car le fichier inclut les deux communes de Saint-Pierre-et-Miquelon qui ne sont pas dans le COG. Pourquoi Saint-Pierre-et-Miquelon et pas la Polynésie française, mystère. []

Wikidata, SPARQL et dynasties électives

La dernière fois, j’avais dit que je continuerais avec les chiens de traîneau mais entre-temps, Fralambert a posé la question suivante sur le bistro de Wikidata :

Bonjour, avec l’élection de Justin Trudeau (Q3099714) comme premier ministre du Canada, et suite à une petite discussion sur IRC. Je me demandais comment on pourrait avoir:

  • Tous les fils ou filles de ministres devenu ministre
  • Et tant qu’à y être, quel est le pays le plus népotique (qui regroupe le plus de ces cas)

On ma suggérer que l’on pourrait le faire à partir de SPARQL, mais je n’ai aucune idée de la façon de programmer ça. Le plus près que je me suis rendu sur Query est Query: CLAIM[39:(Tree[83307][][279])] and claim[40]. Bon mon petit défi est lancé, bonne chance. 😉 —Fralambert (discussion) 01:31, 22 October 2015 (UTC)

La seconde question me permet aussi de faire ce que j’avais prévu pour cet article, la réutilisation des données extraites pour faire une carte, donc, au revoir les chiens…

INC_2009_Justin_Trudeau2
À la place des huskies, vous avez donc droit à un premier ministre avec une tête de prince Disney. C’est bien aussi, non ?

Première question

Sans plus attendre, la requête répondant à la première question :

https://tinyurl.com/py3jzsb

Capture du 2015-10-23 20:29:59

J’ai commenté la requête directement pour éviter d’avoir à tout recopier. On voit que je fais deux requêtes sur les parents ayant occupé une fonction étant une sous-classe de ministre : une pour les pères, une pour les mères. Il me semble qu’on devrait pouvoir utiliser schema:parent pour s’éviter la jointure, mais soit ce n’est pas encore implémenté, soit je m’y prends mal, parce que ça ne renvoie aucun résultat.

Je remarque aussi au passage que l’auto-complétion a été activée : il suffit de taper le début du label (ou d’un alias) en anglais d’un élément ou d’une propriété et faire <Ctrl>+<Espace> pour le remplacer par son identifiant Wikidata :

Capture du 2015-10-23 19:47:05

Voilà qui devrait faciliter l’utilisation au quotidien.

Et par pays ?

La deuxième requête nécessite juste de regrouper par pays et de compter le nombre de résultats plutôt qu’en afficher la liste.

https://tinyurl.com/pcmht2u

Mais on peut faire mieux : cette requête se prête parfaitement à un affichage sous forme de carte. Direction un autre outil de requêtes SPARQL, http://demo.seco.tkk.fi/visu/#/.

Comme il n’est pas spécifique à Wikidata, il faut cette fois indiquer, en plus de la requête, l’URL complète du endpoint SPARQL de Wikidata : https://query.wikidata.org/bigdata/namespace/wdq/sparql/

C’est également une bonne idée d’adapter un peu la requête pour utiliser les codes standards des pays plutôt que leur nom, en l’occurrence le code FIPS 10-4 (pays et régions) (P901).

https://tinyurl.com/nepotsmap

Capture du 2015-10-23 21:09:56

Limites

Cependant, cette requête montre clairement les limites de Wikidata dans son état actuel : on manque encore cruellement de données et surtout de liens entre elles. En effet, à en croire le résultat, il n’y aurait de toute éternité dans le monde entier que cent ministres dont le père ou la mère* a été ministre également, et près de la moitié en Grèce. Outre le biais évident de la demande d’origine de ne considérer que le népotisme que pour les ministres et non l’ensemble des personnalités politiques (présidents, parlementaires, et même pourquoi pas diplomates, officiers, évêques…), le problème est que pour qu’une entrée ressorte, il faut que pour le parent comme pour l’enfant :

  1. l’élément existe (ben oui…)
  2. les relations généalogiques soient correctement renseignées
  3. la fonction soit renseignée (et correctement, il est encore fréquent de trouver la fonction remplie avec « ministère de XXX » au lieu de « Ministre »)
  4. et enfin qu’il y ait une chaîne ininterrompue de sous-classes entre l’élément indiqué comme fonction et l’élément « Ministre » (Q83307)

Visiblement, ce travail a été fait correctement pour la Grèce (environ 900 ministres depuis l’indépendance du pays ne me semble pas déconnant), mais reste à faire pour les autres pays.

* À ce sujet, la seule femme ministre qui a eu un enfant ministre également (d’après ces résultats du moins) est Indira Gandhi.

Image d’en-tête : L’Adoration des mages, par Botticelli, montre Cosme de Médicis, fondateur de la dynastie politique du même nom, accompagné de plusieurs de ses enfants et petits enfants.

Wikidata, SPARQL et chiens de traîneaux

Bon, puisque le dernier billet semble avoir plu, je vais continuer de poster ici mes bidouillages avec SPARQL. L’hiver arrive à grands pas et la saison des courses de chiens de traîneaux aussi par la même occasion, donc c’est parti pour des requêtes un peu plus touchy avec des photos de chiots, parce qu’il n’y a pas de raison de ne pas en profiter.

UNION

Pour commencer, j’aimerais bien avoir toutes les courses de chiens de traîneaux pour lesquelles des participants sont enregistrés. Problème : il y a des courses pour lesquelles la nature de l’élément (P31) est course de chiens de traîneaux (Q1968664), d’autres pour lesquelles la nature est un élément concernant une course qui est elle-même une sous-classe (P279) de course de chiens de traîneaux, et enfin d’autres pour lesquelles la nature est un élément concernant une course qui n’est pas marquée comme sous-classe de course de chiens de traîneaux… Mais pour lequel « course de chiens de traîneaux » est indiqué comme sport (P641). Bref, c’est le bordel. On va donc faire les deux requêtes en même temps et en joindre les résultats avec la commande UNION, comme ci-dessous.

https://tinyurl.com/q74e9ve

Comme dit ci-dessus, quand la même chose peut être décrite sous deux formes, on peut faire une union pour joindre les résultats des deux requêtes :

La ligne suivante :

sert à restreindre aux courses ayant un ou des valeurs pour la propriété  « participant » (P710)

Pour finir, je trie par ordre alphabétique des noms en français des courses :

Capture du 2015-10-19 22:54:09

Husky puppy, CC-BY Tony Pham

Qualificatifs

J’aimerais maintenant chercher, dans les participants à des courses de chiens de traîneau, ceux qui n’ont pas de rang à l’arrivée d’indiqué, ni d’événement-clef expliquant pourquoi ils ne sont pas arrivés (par exemple, abandon ou disqualification). Ces informations sont mises en qualificatifs de la déclaration :

Capture du 2015-10-19 23:37:46

Ici, dans les participants de l’Iditarod 2015, on voit que Brent Sass a été disqualifié (il y a même un article de Wikinews expliquant pourquoi), et que Jason Mackey est arrivé 42e.

On ne peut pas chercher ça avec wdt:, qui renvoie une valeur. Il nous faut utiliser une autre des ontologies proposées par défaut, p:, qui renvoie une déclaration en entier, avec tous ses qualificatifs. La requête est donc la suivante :

La première ligne du WHERE n’a pas changé par rapport à la requête précédente.

Dans la deuxième, en revanche, on voit que wdt: a été remplacé par p:.

J’ai aussi renommé ?musher par ?musherS pour me rappeler que c’est une déclaration (statement) et non une valeur directement. Pour pouvoir afficher le nom des mushers, je vais devoir chercher ladite valeur en utilisant le préfixe v: et la même propriété, avec la déclaration comme sujet :

Enfin, deux filtres sur les qualificatifs (on utilise donc q: et non p: cette fois) me permettent de remonter les lignes qui n’ont pas (FILTER NOT EXISTS) de rang (P1352) ni d’événement-clef (P793).

Capture du 2015-10-19 23:26:42

Samoyède, CC-BY-SA Sp..andreea

Je crois que je vais continuer à m’amuser un peu avec les courses de chiens la prochaine fois, et voir dans quoi on peut réinjecter les résultats des requêtes, pour générer des graphiques ou des cartes…

Photo d’en-tête : Brent Sass et Allen Moore campent l’un à côté de l’autre à un checkpoint durant la Yukon Quest 2015. Photo CC-BY Public Affairs Office Fort Wainwright

Enregistrer

Mais combien y a-t-il de femmes scientifiques sur Wikipédia ? (this time with SPARQL)

Dans mon dernier billet, j’explorais les possibilités d’exploiter les données de Wikidata avec Autolist. Il est maintenant possible d’interroger Wikidata en utilisant le langage standard du web sémantique, SPARQL. Je ne vais pas faire un cours de SPARQL sur ce blog, mais je vais détailler une requête étape par étapes.

Comme c’est à nouveau le jour de l’éditathon Femmes de sciences, je vais reprendre la même requête que la dernière fois : combien y-a-t-il de femmes scientifiques sur les projets Wikimedia, et quel taux par rapport aux hommes ?

Pour commencer, ça se passe par là : https://query.wikidata.org/

Et comme première requête, on va demander de lister 10 êtres humains, sans préoccupation de genre ou de profession. Cela se formule comme ça :

https://tinyurl.com/qhhzdsz

Les deux préfixes au début permettent d’éviter d’avoir à taper en entier les URL des ontologies qu’on utilise. On en ajoutera au fur et à mesure qu’on en aura besoin. Vous pouvez cliquer sur le bouton « Add prefixes » pour en ajouter un paquet d’un coup mais pour les besoins de ce tutorial, je ne vais inclure dans chaque requête que ceux qu’on utilise vraiment.

passons à la requête elle-même :

Ceux pour qui le langage SQL est familier ne seront pas trop dépaysés : « select » est la commande pour demander au serveur de retourner un liste de résultats, « distinct » demande au serveur d’éliminer les doublons éventuels dans les résultats. « ?personne » est une variable qu’on va préciser plus bas, mais remarquez juste pour l’instant que les variables commencent par des points d’interrogation en SPARQL.

On continue avec la clause « where » où on va détailler au serveur ce qu’est cette fameuse variable ?personne qu’on lui demande.

Pour rappel, on cherche en fait des éléments Wikidata. Sur Wikidata, un élément est composé de déclarations dont la structure est la suivante :
2014-06_Introduction_à_Wikidata.pdf

Ici, la structure

peut se lire, dans le jargon du web sémantique :

ou dans celui de Wikidata :

Comme ce sont des éléments qu’on cherche,  on remplace cette partie par notre variable. La propriété qu’on cherche est P31 (nature de l’élément) et la valeur Q5 (être humain), et pour éviter de mettre les URL en entier on va utiliser les préfixes définis plus haut. On a donc wd: pour un élément wikidata et wdt: pour une propriété.

Enfin, le « LIMIT 10 » permet d’éviter de sortir une liste interminable de résultats qui prendrait un temps fou et dont l’affichage mettrait probablement à mal le navigateur.

Lançons maintenant la requête.

Résultats requete SPARQL 1

On a bien 10 résultats, mais ce qui serait bien, c’est d’afficher le label à côté, parce que de tête, je ne sais pas qui sont wd:Q260 ou wd:Q272.

https://tinyurl.com/pfnomxs

On ajoute donc un petit bout de code faisant appel au service « label » de Wikibase. C’est quelque chose de spécifique à Wikidata, qui ne correspond pas au standard (qui serait d’appeler la propriété rdfs:label) et est dû au fait que Wikidata a une gestion très poussée des langues. Elle permet cependant de faire un truc sympa : on peut lui préciser un langage de repli s’il n’y a pas de label dans la première langue demandée. Ainsi ici, si un élément remonté n’a pas de label en français, on va se replier sur celui en anglais. Pour ceux n’ayant pas de label dans ces deux langues, c’est l’identifiant Wikidata qui sera affiché.

J’ai ajouté également les préfixes pour les deux nouvelles ontologies utilisées. Enfin, on rajoute la deuxième colonne demandée au select. La syntaxe « ?<variable>Label » est particulière à ce service.

Continuons maintenant à préciser la requête : on se rappelle qu’on veut spécifiquement les femmes scientifiques.

Commençons par le genre.

On veut les personnes qui ont la valeur « femme (Q6581072) » à la propriété « sexe ou genre (P21) », et on a juste à ajouter la ligne

dans notre clause where. Pour la profession, c’est un peu plus compliqué : la plupart des scientifiques ne sont en effet pas recensés en tant que scientifiques directement mais avec des professions plus précises, comme Marie Curie qui est physicienne et chimiste. On veut donc non seulement les gens dont la profession (P106)  est scientifique (Q901) , mais aussi ceux dont la profession est une sous-classe (P279) de scientifique.

Cela se formule comme cela :

L’étoile sert à indiquer qu’on veut prendre plusieurs niveaux de sous-classe s’il y en a.

La requête finale est donc :

https://tinyurl.com/p9rtblf

Capture du 2015-10-18 22:04:45

Note : on peut abréger cette requête en remplaçant les trois lignes du where par une seule :

 

C’est bien, mais ce qu’on voulait à la base, c’est le *nombre* de femmes scientifiques, pas dix d’entre elles au hasard. Il suffit de changer la ligne 5 de la façon suivante :

on demande donc à SPARQL de compter le nombre de résultats de notre requête et de le renvoyer en tant que nouvelle variable ?nombre, ce qui donne ce résultat https://tinyurl.com/pgn6xel

Au moment où j’écris ces lignes, il y a donc 16764 femmes scientifiques sur Wikidata. Et si on veut comparer aux hommes ? Il est possible de sortir le chiffre par genre en mettant cette valeur comme une variable et en l’utilisant pour grouper les résultats. Cela se fait de la façon suivante :

https://tinyurl.com/oebwvh8

Capture du 2015-10-17 16:48:47

Quelques remarques :

  • j’ai dû renoncer à afficher les labels pour les genres, cela faisait partir la requête en timeout. Les valeurs sont les suivantes : masculin (Q6581097), féminin (Q6581072), femme transgenre (Q1052281), homme transgenre (Q2449503)
  • Les personnes trans* sont généralement indiquées à la fois comme de sexe masculin et féminin (avec des dates de début ou de fin correspondant à la transition) et de genre femme (ou homme) transgenre. Comme il y a une seule propriété pour sexe et genre, elles apparaissent donc 3 fois dans ces statistiques.
  • le t216432070 est en fait un blank node, c’est à dire un nœud vide.  Il correspond à Āpastamba, un mathématicien indien du IV ou Ve siècle avant notre ère, qui a « valeur inconnue » pour la propriété sexe ou genre (ce qui me semble une erreur, quelques recherches sur Internet pointent toutes vers un homme.)

 

Par rapport à la question d’origine, il ne reste donc plus qu’à filtrer les résultats pour ne garder que les éléments qui ont un interwiki vers la Wikipédia en français. On cherche donc la propriété schema:about en filtrant sur les URL concernant fr.wikipedia.org :

https://tinyurl.com/p3hokoo

Capture du 2015-10-18 22:03:23

Bilan : 7,6% de scientifiques sont des femmes sur la Wikipédia en français, contre 10% sur Wikidata. Cela a un peu progressé par rapport au précédent billet il y a sept mois.

PS : Merci à Karima Rafes pour sa présentation du langage SPARQL hier lors du SemanticCamp Paris #7.

Image à la une : Ada Lovelace par Margaret Carpenter (domaine public). L’editathon Femmes de sciences a lieu dans le cadre de l’Ada Week qui est nommée en son honneur.

Mais combien y a-t-il de femmes scientifiques sur Wikipédia ?

La semaine dernière s’est tenu à Paris un éditathon « Femmes de sciences », coorganisé par Wikimédia France. Mon collègue Mathieu s’est posé la question qui sert de titre à ce billet. Il se demandait également quel était le ratio hommes/femmes dans ce domaine, et m’a demandé comment trouver la réponse en utilisant Wikidata… Je me suis dit que la réponse pourrait intéresser d’autres personnes.

L’outil dont on a besoin est Autolist : https://tools.wmflabs.org/autolist/index.php? et on va l’utiliser pour obtenir les résultats d’une requête Wikidata Query (WDQ).

Prenons deux secondes pour repenser notre requête d’une façon compréhensible par l’ordinateur  : on veut les éléments qui ont pour nature (P31) « être humain (Q5) » (cette précision est obligatoire pour éliminer les personnages de fiction), de sexe ou genre (P21) « féminin (Q6581072) » et dont la profession (P106) est une sous-classe de (P279) « scientifique (Q901) »

Ce qui nous donne la requête : claim[31:5] AND claim[21:6581072] AND claim[106:(TREE[901][][279])] (la syntaxe du « TREE », pour obtenir les sous-classes de scientifique, est quelque peu déroutante mais est expliquée dans la documentation de WDQ.) On peut rajouter un « AND link[frwiki] » pour filtrer sur celles qui ont un article sur la Wikipédia en français. autolist

 ​Résultat : 14 725 éléments concernant des femmes scientifiques sur Wikidata. Parmi celles-ci, 2 629 ont un article sur Wikipédia en français.

Si je refais ces requêtes pour les hommes (claim[21:6581097]) : 157 093 hommes scientifiques sur Wikidata, dont 36 433 ont un article sur la Wikipédia en français.

On a donc :
  • 14725 / (14725 + 157093) * 100 = 8,57 % des scientifiques sur Wikidata sont des femmes.
  • 2629 / (2629 + 36433) * 100 = 6,73 % des scientifiques sur Wikipédia en français sont des femmes.

Les chiffres pour la Wikipédia en français me paraissent assez faibles et je présume que si la nature et le genre sont bien renseignés sur Wikidata, ce n’est probablement pas le cas de la profession (soit qu’elle n’est  pas indiquée sur l’entrée de la personne, soit que l’entrée de la profession elle-même n’est pas une sous-classe de « scientifique »).

Un autre moyen de rechercher cette information est de croiser les femmes renseignées sur Wikidata (claim[31:5] AND claim[21:6581072]) et les articles dans la catégorie:Scientifique (ou une des sous-catégories à une profondeur de 12 niveaux) sur la Wikipédia en français :

autolist2

​Ce qui nous donne 42 321 hommes et 3 279 femmes et donc un taux de femmes de 7,19 %.

Bon, il reste du boulot. Aussi bien pour créer les articles sur Wikipédia que pour trier l’arborescence sur Wikidata.

Image d’en-tête : la conférence de Solvay, en 1911, où sur vingt-quatre scientifiques présents, il y a une seule femme : Marie Curie. Photographie de Benjamin Couprie, domaine public.

QuickStatements : trucs et astuces

Magnus Manske a créé beaucoup d’outils pour faciliter la contribution à Wikidata, Autolist et le Wikidata Game étant parmi les premiers qui viennent à l’esprit. Un autre de ses outils, très utile pour ajouter du contenu en masse, se nomme QuickStatements[1].

Il est accessible ici et permet de créer des éléments de Wikidata, ou d’en compléter en ajoutant des déclarations (ou des références pour des déclarations existantes), en utilisant une syntaxe à base de tabulations qui est assez bien expliquée sur la page elle-même, ce qui m’évite d’avoir à détailler tout ça ici : débrouillez-vous, RTFM 🙂

Un petit avertissement cependant : si QS se débrouille très bien pour éviter de mettre en doublon une déclaration qui serait déjà présente, il n’y a aucun moyen de lui indiquer de ne pas remplacer un label ou une description s’il y en a déjà un.

Flood flag

Comme dit plus haut, QS permet d’ajouter du contenu en masse : on se retrouve vite à balancer plusieurs milliers de lignes dans le fichier, histoire de partir à un Mardi c’est wiki pour boire des bières[2] pendant que notre ordinateur continue à contribuer tout seul. C’est cool, mais pas pour ceux qui vérifient les RC… Aussi, quand vous avez un gros traitement à lancer, je vous invite à demander le « flood flag » qui vous permet d’être considéré temporairement comme un robot.

Si vous êtes admin sur Wikidata, vous pouvez vous le mettre vous-même.

Conversion CSV vers QuickStatements

La syntaxe de QS peut devenir rapidement assez fastidieuse, et je trouve personnellement plus simple de travailler avec un tableur. J’ai donc écrit un script qui convertit un fichier CSV en liste de commandes pour QS. Il est trouvable à cette adresse, avec un exemple de la syntaxe attendue.

Il peut arriver qu’on veuille insérer le même label dans toutes les langues utilisant l’alphabet latin, aussi j’ai préparé un fichier avec les en-têtes dans un paquet de langues latines.

Récupération des lignes en erreur

Il peut arriver qu’une ligne pourtant correctement formatée ne passe pas dans QS[3], à cause d’un timeout ou parce que Wikidata est passée en lecture seule. On a alors des résultats dans ce goût là dans le journal de QS :

Quand il y en a peu, il suffit de repasser la ligne précédente (ou de faire directement le changement en question à la main sur Wikidata…), mais quand il y en a beaucoup, on peut les récupérer automatiquement. Si vous êtes sous Linux, vous pouvez le faire de cette façon :

  1. enregistrer le journal des actions de QuickStatements dans un fichier texte (qu’on va nommer ici qs1.txt)
  2. ouvrir une console, se rendre dans le répertoire où est enregistré qs1.txt
  3. lancer la commande suivante :

Il suffit ensuite de copier-coller le contenu du fichier qs1_err.txt dans QuickStatements.

Image d’en-tête : « Shitloads of data to Wikidata », by Jean-Frédéric, CC-By 4.0

  1. QS dans la suite du texte. []
  2. ou des diabolos : on n’est pas sectaires. []
  3. Pour info, sur un fichier d’environ 110 000 lignes, j’ai eu un peu moins de 500 erreurs… Et plus de 24h de traitement. []

Insérer ici une vanne à base de « blog en bois »