Lundi 13 octobre 2014, Nanterre, Maison Archéologie et Ethnologie
Présents
- Béatrice Bouchou-Markhoff (Laboratoire d’Informatique, Blois)
- Thomas Francart (consultant indépendant, Tours)
- Nathalie Le Tellier-Becquart (MAE, Nanterre)
- Olivier Marlet (CITERES-LAT/MSH VdL, Tours)
- Emmanuelle Morlock (UMR HISoMA/MOM, Lyon)
- Blandine Nouvel (MMSH, Aix)
- Xavier Rodier (CITERES-LAT/MSH VdL, Tours)
- Stéphanie Satre (MMSH, Aix)
- Evelyne Sinigaglia (MAE, Nanterre)
- Anne-Violaine Szabados (MAE, Nanterre).
PACTOLS, un thésaurus pour décrire les ressources documentaires en archéologie
Blandine Nouvel (MMSH, Aix) et Evelyne Sinigaglia (MAE, Nanterre) présentent les PACTOLS.
Voir la présentation : 01_PACTOLS_MASA20141013
Les PACTOLS sont un thesaurus géré par FRANTIQ. Ils permettent d’interroger le catalogue collectif indexé. Elaborés depuis 1987 en collaboration avec les chercheurs, les PACTOLS sont constitués de sept thésaurus : Peuples / Anthroponymes / Chronologie / Toponymes / Œuvres / Lieux / Sujets polyhiérarchiques et multilingues (langue pivot : français), incluant des relations d’associations entre termes (http://pactols.frantiq.fr). Ce thésaurus est utilisé pour des bibliothèques, photothèques, des archives, de la publication (mots-clés pour référencer) et sert de référentiel pour ISIDORE.
Un logiciel libre et gratuit permet d’exploiter les PACTOLS, OpenTheso. OpenTheso en est à sa version 3 en full web et respecte les normes ISO 25964-1 (2011) et 2 (2012). Ce logiciel utilise les lexiques et dictionnaires du domaine (www.frantiq.fr), indépendamment du catalogue collectif et répond aux nécessités du web sémantique. OpenTheso permet des imports-exports en XML, SKOS et CSV et peut être aligné avec d’autres thésaurus.
Des groupes de travail se sont mis en place pour enrichir les PACTOLS. Un partenariat avec la Belgique met un place un mapping avec MULTITA (Multilingual terminological research for the development and integration of semantically enriched scientific thesauri). De même, un workshop « interopérabilité » travaille au mapping des PACTOLS avec le réseau européen ARIADNE. Par ailleurs les termes de Pactols sont candidats pour entrer dans le thésaurus du Getty ATT (Art & architecture Thesaurus).
Les PACTOLS s’orientent vers le web sémantique :
- par l’enrichissement terminologique : MOM, INRAP, etc.
- par la consolidation de la structure sémantique
- par l’ajout d’outils de géolocalisation et l’enrichissement par des notes et des images
- par une réflexion pour transformer ce thésaurus en ontologie
Ce dernier point de transformer les PACTOLS en ontologie a suscité des interrogations concernant la pertinence d’un tel travail. En effet, une ontologie correspond à un modèle de description du monde tel qu’on se le représente et décrit la manière dont les termes sont reliés entre eux dans un langage formel, quand les thésaurus se contentent d’établir des relations cohérentes entre termes. L’équipe de Frantiq pense que cela permettra de s’ouvrir d’avantage à d’autres applications et de diffuser ce vocabulaire structuré plus largement. Il a été suggéré de se documenter au préalable sur les ontologies existantes, et plus particulièrement sur FRBRoo qui est une la fusion du CIDOC-CRM et de l’Ontologie FRBR des bibliothèques, et de voir les extensions au CIDOC-CRM qui peuvent exister pour l’archéologie (notamment CRM-EH). Qu’entend-on par faire de PACTOLS une ontologie ? C’est surtout la mise en parallèle de PACTOLS en tant qu’ontologie avec FRBRoo qui interpelle, FRBRoo étant plutôt comme le CRM.
Cette remarque engage une discussion autour des ontologies pouvant servir en SHS et plus particulièrement en archéologie. Par exemple OBOE qui est une ontologie pour la prise de mesure (observations scientifiques). On déplore le manque de formations sur l’utilisation des ontologies. Emmanuelle Morlock nous fait savoir qu’elle a pu participer à la summer school organisée par Ariadne en mai 2014 sur l’utilisation du CIDOC-CRM pour rendre des bases de données en archéologie interopérables avec des infrastructures comme ARIADNE qui utilisent le standard CIDOC-CRM (http://vast-lab.org/ariadne-2014-summer-school-at-pin/). Elle y a découvert un outil, en cours de développement intitulé « Mapping Memory Manager » (https://github.com/isl/Mapping-Memory-Manager) permettant de faciliter le mapping entre SGBD et CIDOC-CRM, le système permettant de documenter un SGBD sous forme de triplets cohérents avec la structure et les propriétés du CIDOC-CRM. Le site du VAST-LAB, organisateur de la formation, offre également sur son site un outil de références croisées pour facilitant la navigation dans l’ontologie : http://vast-lab.org/cidoc5/.
Sanctuaires : base des sanctuaires romano-celtiques de Gaule
Isabelle Fauduet (MAE, Nanterre) présente la base de données « Sanctuaires ».
Voir la présentation : 02_SANCTUAIRES_MASA20141013
Sanctuaires est une Base FileMaker qui nécessite une grosse actualisation logicielle (elle compte actuellement quelques 650 fanum). Elle a bénéficié d’une publication papier sous forme d’un Atlas en 1993 mais continue d’être alimentée. Il a donc été décidé de la migrer en format RDF et de mettre en place une interface d’exploitation et d’administration avec le logiciel VITRO. Cette migration nécessitera d’adapter la structure de la base de données qui, à l’origine, n’était pas relationnelle. Des problèmes se poseront à la migration, notamment celui de formaliser l’incertitude. Les données seront reprises pour renvoyer à des référentiels pour la géographie, la chronologie, les personnes (ISNI), la bibliographie.
Une discussion s’engage sur les difficultés de migrer des données qui manquent parfois de structuration, par exemple la bibliographie qui n’est structurée qu’en trois champs : auteurs, date, référence.
Thomas Francart présente le projet de migration en quatre étapes :
- Mise au point d’un modèle basé sur le CIDOC-CRM
- Migration des données de FileMaker en RDF basée sur l’ontologie
- Alignement vers d’autres référentiels (PACTOLS)
- chargement dans VITRO (outils web-collaboratif), ontology-driven, linked-data compatible.
VITRO est une application web, paramétrée avec une ontologie et alimenté en données RDF. VITRO permet de rechercher, naviguer et éditer les données.
http://vitro.mannlib.cornell.edu/
Des expériences déjà menées avec VITRO montrent l’avantage de republier les données en format RDF normalisé selon une ontologie : les bases peuvent ainsi être fédérées dans un portail de recherche unique.
La discussion fait ressortir les points suivants :
- L’outil a été choisi car il fait partie des rares outils liés fondés sur les technologies du web sémantique qui offrent une interface de saisie.
- Thomas Francart propose de l’héberger sur ses serveurs pendant la durée du projet. Cependant la question de l’hébergement post projet se pose.
- Thomas Francart précise que les interfaces de saisie seront utilisées telles qu’elles sont distribuées via l’outil et qu’il n’y a pas de prestation de personnalisation prévue.
Interopérabilité de la base de données ArSol (Archives du Sol) fondée sur l’ontologie CIDOC-CRM
Olivier Marlet (MSH Val-de-Loire, Tours) présente le système ArSol utilisée par le Laboratoire Archéologie et Territoires de Tours et le travail effectué pour la rendre interopérable via le CIDOC CRM, présentation effectuée également lors du CAA 2014 à Paris, avec Émeline Le Goff.
Voir la présentation : 03_ArSolCIDOC_MASA20141013
ArSol est une base 4D en production à Tours depuis 1990, fondée sur le système d’enregistrement stratigraphique utilisé depuis la fin des années 1960. Elle est utilisée également par d’autres partenaires du Laboratoire Archéologie et Territoires : CG37, INRAP, Communauté d’Agglomération Bourges Plus.
Après une première étape de mise en ligne d‘ArSol (http://arsol.univ-tours.fr), l‘objectif d’interopérabilité nécessitait de trouver une solution permettant de s’affranchir de la base de données sans procéder à sa migration vers un nouveau système, afin de ne pas avoir à redévelopper les processus de traitement de données. Le CIDOC CRM s’est alors imposé comme la solution pertinente puisqu’il peut être utilisé comme une référence unique et normalisée permettant d’interroger les données d’ArSol, mais également de toute autre base de données archéologiques dans n’importe quel format interrogeable sur le web (Access, Filemaker, par exemple).
La première étape a consisté à faire le mapping d’une sélection de quelques champs pertinents de la base ArSol vers les entités et propriétés du CIDOC-CRM. La compréhension de la structure riche du CIDOC CRM a constitué une part importante dans le travail de mapping afin de faire correspondre au mieux les notions d’ArSol et du CIDOC-CRM, la complexité de cette tâche a été facilitée par l’aide précieuse de Patrick Le Bœuf, spécialiste du CIDOC-CRM à la BNF).
La seconde étape était de traduire ces équivalences dans un fichier RDF et de contrôler la validité de la modélisation réalisée, ce qui ne peut se faire que manuellement puisqu’il n’existe pas réellement d’outils permettant de valider un mapping.
Une spécificité d’ArSol a nécessité de modéliser une branche particulière dans le CIDOC-CRM. Il s’agit pour le mobilier archéologique des notions de « fonction » (ce pourquoi l’objet a été fait) et d’ « usage » (ce à quoi l’objet a été utilisé). Ainsi, une monnaie prévue pour du commerce, pourra se trouver en contexte funéraire utilisé comme un pendentif. Le CIDOC CRM ne proposant pas d’entité pour modéliser ces deux notions, Patrick Le Bœuf a proposé de recourir au très générique E55_Type qui nécessite d’être ensuite défini. Toutefois, ces deux notions bénéficient dans la structure d’origine du CIDOC-CRM de deux propriétés qui en facilite l’utilisation : P103.was_intended_for (fonction d’origine) et P16.1.mode_of_use (utilisation réelle).
Cet aspect a soulevé des questions : plutôt que d’utiliser des entités générique E55_Type pour répondre à une spécificité d’ArSol, ne faudrait-il pas plutôt générer une extension du CIDOC-CRM ?
Il a été alors rappelé l’objectif de ce projet soutenu par MASA puisque, à terme, ArSol ne doit pas être la seule base interrogeable par ce système. L’interrogation doit pouvoir porter sur plusieurs bases distinctes en exploitant à chaque fois le mapping spécifique à la base. L’utilisation d’entités génériques ne risque-t-elle pas de limiter l’interrogation standard de plusieurs bases ? Développer pour chaque base des extensions au CIDOC-CRM pour répondre aux spécificités ne posera-t-il pas le même problème ? La question reste ouverte et le développement en cours de la partie logicielle de ce système d’interrogation permettra de tester le choix effectué et donc peut-être d’y répondre. En outre, l’utilisation du E55_Type nécessite d’en préciser le concept, ne serait-ce que pour s’y référer ou l’associer à une documentation le définissant. Le choix d’une extension peut être pertinent si on utilise un standard déjà existant pour étendre un ensemble pauvrement pris en compte par le CRM. La question est alors de savoir si ces standards répondent aux spécificités que l’on souhaite conserver.
Interroger des données via une ontologie
Béatrice Bouchou-Markhoff (Laboratoire d’Informatique de l’Université de Tours, Blois) présente les moyens logiciels pour interroger des données via une ontologie.
Voir la présentation : 04_ONTOP_MASA20141013
Deux solutions sont possibles lorsque l’on a des données déjà bien gérées dans une base de données : soit les données peuvent être extraites, transformées et chargées dans un triplestore muni d’un schéma donné (duplication en RDF), soit on utilise une interface d’accès à la base de données de type OBDA (Ontology-Based Data Access), choix fait pour ArSol avec le logiciel Ontop : http://ontop.inf.unibz.it/. A noter que pour la base Sanctuaires la solution triplestore sera expérimentée, sans qu’il y ait maintenance en parallèle de la base d’origine.
Le Web des données a pour objectif de rendre les données interprétables automatiquement et de les lier entre elles. Le format RDF permet de représenter les données sous forme de triplets (sujet > prédicat > objet). Les données sont alors exploitées à travers des modèles de connaissance (ontologies) permettant des inférences, des combinaisons ou des médiations.
Le choix a été fait pour ArSol d’utiliser Ontop, plateforme permettant d’interroger une base de données comme un graphe de données virtuel, à travers le schéma de ces données, ceci grâce à la définition d’association entre les composants du schéma et les requêtes SQL qui récupèrent les données dans la base. Ainsi on obtient un point d’accès SPARQL aux données de la base, comme si elles se trouvaient dans un triplestore RDF. Ontop offre un plugin pour Protégé (outil populaire de travail sur les ontologies) qui permet de définir aisément le schéma des données comme une ontologie et de spécifier les associations entre ce schéma et les requêtes SQL. Son utilisation pour ArSol est en cours de développement à Tours.
Il sera nécessaire de définir un protocole d’affectation d’URIs pour chaque enregistrement pour pouvoir lier les données et permettre leur référencement par d’autres systèmes.