RiC-O Converter : un exemple de mise en application du standard ICA Records in Contexts (ICA RiC)

Florence Clavaud

Florence Clavaud

ICA Records in Contexts (ICA RiC, ci-après RiC) est le nouveau standard de l’ICA pour la description des archives, élaboré par le groupe d’experts EGAD (Expert Group on Archival Description).

Ce standard, encore aujourd’hui à l’état de brouillon, articule et remplace les quatre normes internationales de description archivistique publiées entre 1994 et 2008 (ISAD(G), ISAAR(CPF), ISDF et ISDIAH) et propose un cadre de travail global, adapté aux évolutions du métier et des technologies numériques. Il permet de mieux représenter la complexité des archives et de leur histoire, et les multiples couches de contextes dans lesquelles s’inscrivent les fonds d’archives.

RiC se compose en premier lieu d’un modèle conceptuel (RIC-CM) abstrait. Il s’agit d’un modèle métier, qui clarifie les notions propres à la communauté archivistique. RiC-CM présente ces notions sous une forme similaire à celle des modèles conceptuels des autres communautés professionnelles( 1). Dotée de ce modèle conceptuel, la communauté archivistique peut donc dialoguer sur des bases claires avec les autres communautés et travailler avec elles à une réelle interopérabilité entre les données culturelles.

La deuxième partie du standard RiC est une ontologie (RiC-O), c’est-à-dire une transposition concrète, technique, du modèle conceptuel RiC-CM, en un fichier qui définit le vocabulaire et les règles applicables à des métadonnées archivistiques numériques conformes à RiC-CM et ayant la forme de jeux de données RDF, publiables dans le web de données ou web sémantique. De ce fait, RiC-O se positionne, par rapport à RiC-CM, un peu comme le schéma XML/EAD par rapport à ICA ISAD(G)( 2).

En pratique, qu’est-ce qu’il faut pour « passer à RiC-O » ?

Cela nécessite des compétences particulières : connaissance des technologies XML et RDF (comme le langage de requête SPARQL), du langage utilisé pour produire une ontologie (OWL), et aussi un minimum de connaissances sur les solutions techniques pour stocker, gérer et publier des jeux de données RDF – les bases RDF ou triplestores. Des compétences qui ne sont pas toutes enseignées par les cursus archivistiques, même si de plus en plus de nouveaux professionnels sont formés à certaines de ces notions. Pour utiliser RiC-O à petite ou grande échelle dans une institution, il faut donc impliquer des personnes ayant le profil d’ingénieur système, de spécialiste en technologies du web sémantique et en ingénierie des connaissances.

Cela peut sembler complexe. C’est le cas chaque fois que l’on informatise ou ré-informatise ses métadonnées. Les bénéfices se ressentiront, d’une part dans le niveau de précision des données obtenues et dans les possibilités de les lier avec d’autres données d’autres institutions, d’autre part dans l’accès aux fonds et la réutilisation des données.

Prenons l’exemple Archives nationales de France (ANF) où vous travaillez :

Les utilisateurs des ANF doivent actuellement interroger différents sites web et bases de données indépendants les uns des autres pour mener leurs recherches : dans la salle des inventaires virtuelle qui est la principale porte d’entrée, les relations qui existent entre les objets décrits (les documents et les producteurs notamment) ne sont pas du tout interrogeables alors qu’il en existe en fait un très grand nombre ; Enfin, les utilisateurs ne peuvent pas faire de requêtes transverses sur une personne (Qui ?), un lieu (Où ?), un sujet (Quoi ?).

Avec le modèle RiC, on peut représenter un fonds d’archives, les ensembles documentaires qu’il inclut, les personnes qui l’ont produit ou qui en sont les sujets, les lieux concernés, etc., comme un graphe d’entités liées. Chacune des entités présentes dans le graphe devient potentiellement un point d’entrée pour l’utilisateur final. De plus certaines de ces entités sont aussi connues d’autres institutions que les ANF. Ces entités deviennent alors des clés pour lier les données contenues dans plusieurs systèmes d’information distincts. Bref on passe à une description en graphe, multidimensionnelle et plus dynamique.

Nous avons vérifié cette idée en réalisant le prototype PIAAF mis en ligne en février 2018, réalisé en partenariat avec la BnF et le SIAF. Cette preuve de concept qualitative nous a permis de démontrer la faisabilité de la conversion des données existantes en RDF conforme à RiC-O, et l’intérêt d’une représentation en graphe des métadonnées archivistiques. Les résultats ont été très bons et nous ont également permis de mieux comprendre le saut réalisé en termes de précision et de possibilités d’interrogation.

Nous avons donc décidé de passer à une échelle beaucoup plus systématique et de doter les ANF d’une première brique logicielle : RiC-O Converter.

Alors qu’est-ce que RiC-O Converter va changer ?

Le logiciel RiC-O Converter a pour fonction de convertir les instruments de recherche en EAD et les notices de producteurs en EAC-CPF des ANF en jeux de données RDF conformes à RiC-O.

Nous avons pu mener ce projet à bien en 2019 grâce à un financement du ministère de la Culture, qui soutient les actions des institutions culturelles françaises dans le domaine du web sémantique. NNous avons confié le développement du logiciel à la société Sparna, dirigée par Thomas Francart, expert dans le domaine des technologies sémantiques.

Nous avons aujourd’hui, grâce à RiC-O Converter, converti l’intégralité des instruments de recherche (au nombre de 28000 actuellement) et des notices d’autorité (au nombre de 15000) des ANF en jeux de données au format RDF conformes à RiC-O. Et nous pouvons bien sûr procéder à une nouvelle conversion dès que nécessaire, par exemple lorsque le contenu des instruments de recherche ou notices d’autorité évolue de façon significative.

RiC-O Converter nous a aussi permis de détecter des problèmes de qualité (imprécisions, mauvais usage du format EAD…) dans nos métadonnées, qu’il aurait été très difficile de déceler autrement. Ainsi les travaux réalisés contribuent à l’élaboration d’un programme institutionnel global d’amélioration de cette qualité. Nous avons par ailleurs commencé à enrichir et normaliser nos réservoirs de données d’autorité ou référentiels ( 3) car ceux-ci permettent de réunir au même endroit toutes les informations de description des entités de contexte dont nous avons déjà parlé.

RiC-O Converter va-t-il être accessible à tous ?

RiC-O Converter est très facile à utiliser, même pour des non-initiés. Nous avons construit cet outil pour les Archives nationales, mais également dans l’idée qu’il pourrait être utile à tout service d’archives ou tout autre organisme disposant d’inventaires au format EAD et/ou de notices au format EAC-CPF, et souhaitant utiliser les technologies du web de données tout en veillant à la conformité de ses métadonnées avec le standard RiC. C’est pourquoi le logiciel est un logiciel libre. Tout le monde pourra donc s’en servir et en modifier le code pour l’adapter à ses besoins.

Que vous reste-t-il à faire pour que les utilisateurs puissent voir le changement ?

RiC-O Converter n’est qu’une étape dans un processus plus large et plus long.

Mind Map Ric-O

Disposer de jeux complets de métadonnées archivistiques en RDF, c’est bien. Mais il faut encore mettre en place des outils d’interrogation et de visualisation de ces données. Les ANF ne disposent pas d’une interface de ce type, même si nous avons commencé à y réfléchir très concrètement pour imaginer la suite.

Le projet de recherche ALEGORIA (http://alegoria.ign.fr/) auquel nous collaborons, développe ainsi une interface de recherche innovante pour des fonds de photographies aériennes ; le modèle de référence principal pour les métadonnées descriptives de l’ensemble de ces fonds est l’ontologie RiC-O. L’interface devrait être rendue publique fin 2020. Enfin nous pouvons aussi nous inspirer d’interfaces comparables techniquement, comme https://data.bnf.fr/, qui est basé sur une ontologie conforme à IFLA LRM.

Par ailleurs, il faut aussi réfléchir à l’intégration de ces briques sémantiques dans le système d’information actuel des ANF. Il est notamment nécessaire de prévoir des dispositifs qui permettent de mettre à jour les jeux de données RDF lorsque des collègues modifient les informations d’origine dans leurs outils de travail.

Que peut faire la communauté archivistique internationale ?

Dans un premier temps, donner son avis sur RiC !

Le groupe de travail EGAD de l’ICA a publié en décembre 2019 des versions de travail du modèle conceptuel et de l’ontologie pour que la communauté puisse les commenter et que d’autres projets puissent être lancés.

Le groupe de travail EGAD publiera la version 1.0 de RiC-CM et de RiC-O cet été, afin que ces versions complètes et stables, co-construites avec la communauté archivistique, puissent servir de référence. Bien sûr RiC devra ensuite continuer à évoluer. Mais nous espérons que de grands projets puissent se fonder sur ces normes, comme des portails – pour le projet international SNAC (Social Networks and Archival Context), cela devrait normalement être le cas.

Florence Clavaud, Conservatrice générale du patrimoine, Responsable de la Mission référentiels aux Archives nationales de France

Note (1) : comme IFLA LRM, le modèle conceptuel pour la description bibliographique, publié en 2017 https://www.ifla.org/publications/node/11412 (retour au texte)

Note (2) : le schéma EAD, qui est aujourd’hui très utilisé dans le monde entier notamment par les services d’archives français, ou comme format d’échange, par exemple par les portails comme Archives Portal Europe, définit le vocabulaire et les règles à utiliser pour produire des instruments de recherche archivistiques numériques conformes à ICA ISAD(G) et structurés en XML. (retour au texte)

Note (3) : vocabulaires servant à l’indexation, notices sur les personnes et les lieux (retour au texte)

RESSOURCES ET INFORMATIONS

Actualités sur le développement de Records in Contexts
https://www.ica.org/fr/nouvelles-de-la-norme-records-in-contexts

Ressources sur RiC-O Converter