Vademecum Biblissima+ : comment contribuer à l’infrastructure de données numériques ?

Introduction

Le vademecum a pour but de décrire les conditions et modalités d'intégration et de mise à jour des données dans l’infrastructure numérique de Biblissima+.

Il s’adresse avant tout :

  • aux équipes fondatrices de l’ÉquipEx+ Biblissima+ en charge de la réalisation de ses différents livrables ;
  • aux projets souhaitant répondre aux appels à manifestation d'intérêt (AMI) lancés chaque année par Biblissima+, afin de les aider à construire leur candidature ;
  • aux équipes des projets exploratoires et projets partenariaux sélectionnés à la suite d'un AMI pour connaître les modalités d'intégration des données produites dans l'écosystème Biblissima+.

Il s’applique donc à toutes les données et jeux de données produits dans le cadre des activités de recherche menées par les différentes équipes et ayant vocation à intégrer l’infrastructure numérique de Biblissima+. Cette infrastructure prend essentiellement la forme d’un portail d’accès unifié (Portail Biblissima+) et d’une plateforme de référentiels d’autorité (data.biblissima.fr), s’inscrivant dans le périmètre P1 géré par l’équipe Portail et décrit dans le Plan de gestion des données de l'observatoire des cultures écrites Biblissima+ (10.5281/zenodo.7081673).

Ainsi le présent guide explique comment les producteurs de données agissant dans le cadre des périmètres P2 (livrables des équipes partenaires de l’ÉquipEx) et P3 (résultats des projets partenariaux) contribuent à l’enrichissement de l’infrastructure de données de Biblissima+.

Présentation de l’infrastructure de données

L’infrastructure de données de Biblissima+ s’appuie sur deux grandes briques, présentées brièvement ci-dessous :

Les données susceptibles d’intégrer ces deux plateformes peuvent provenir de ressources très diverses, parmi lesquelles : des bibliothèques numériques, des catalogues et répertoires, des bases de données scientifiques, des corpus spécialisés, des éditions électroniques de sources anciennes, ou encore des thesauri et listes d’autorité.

La page Ressources du site de Biblissima+ donne une vue d’ensemble des ressources produites et maintenues par les équipes partenaires de Biblissima 1 (2012-2021) et Biblissima+ (2021-2029). Cette autre page présente les principales évolutions du Portail depuis sa mise en ligne en avril 2017, en particulier les différentes ressources qui ont été traitées et intégrées par l’équipe au fil du temps.

Le Portail Biblissima+

Le Portail Biblissima offre un accès unifié à un ensemble de données numériques hétérogènes produites par les partenaires du consortium Biblissima (2012-2021) puis de Biblissima+ (2021-2029).

Il permet de visualiser, de consulter et d'interroger des documents numérisés, des catalogues et bases de données spécialisées portant sur divers aspects de l'étude des cultures écrites anciennes : histoire des collections et des provenances de livres (manuscrits médiévaux, incunables et imprimés anciens), transmission des textes, iconographie, reliures, fragments, inscriptions, sceaux, monnaies etc.

Le Portail est administré et maintenu par l’équipe technique de Biblissima+. Elle prend en charge autant les évolutions fonctionnelles du Portail que l’ensemble du processus de collecte, de traitement, d’alignement et de versement des données.

Les référentiels d’autorité (data.biblissima)

Les référentiels d’autorité Biblissma+ sont l’épine dorsale du portail Biblissima et du moteur IIIF Collections of Manuscripts and Rare Books.

Leur création est le fruit d’un travail d’identification, de désambiguïsation, d’harmonisation et d’alignement d’entités nommées issues d’un large éventail de sources de données (bibliothèques numériques, catalogues et bases de données spécialisées portant sur les manuscrits et imprimés anciens). Cet effort est mené depuis les débuts de Biblissima en 2013.

L’objectif premier de ce travail est de permettre la fusion de données disparates au sein du portail Biblissima et de faciliter le regroupement de libellés d’entités souvent exprimés de manière différente d'une base de données à l'autre, que ce soit une cote de manuscrit, un établissement de conservation, une personne, une oeuvre ou un lieu.

Ces référentiels sont publiés sur la plateforme dédiée data.biblissima.fr. Son but premier est de constituer un "hub" d'identifiants et de données structurées, accessibles, interopérables et réutilisables. Ce hub joue un rôle central pour l'interopérabilité des ressources traitées dans le cadre de Biblissima, tout en permettant à d'autres projets de bénéficier du travail de réconciliation et d'harmonisation effectué en ce sens.

Sont disponibles actuellement les référentiels des types d’entités suivants :

  • cotes de manuscrits et d’imprimés anciens
  • personnes physiques et familles
  • organisations
  • noms géographiques
  • oeuvres
  • descripteurs iconographiques

Comment s’aligner avec les référentiels Biblissima+ ? Comment y contribuer ?

Les équipes et projets partenaires de Biblissima+ sont fortement encouragés à contribuer à l’enrichissement et à l’amélioration des référentiels publiés sur la plateforme data.biblissima.fr. En effet, la qualité du travail d’agrégation et de mise en interopérabilité des données au sein du Portail Biblissima+ est étroitement liée à celle des référentiels, de leur utilisation et de leur enrichissement par les équipes financées.

Le mode opératoire pour contribuer aux référentiels peut être résumé ainsi :

  • le partenaire aligne en amont ses données avec le ou les référentiels pertinents : cote, personne, organisation, lieu, oeuvre ou descripteur iconographique. Cette opération peut se faire soit au fil de l’eau (lors du travail de saisie ou de balisage), soit a posteriori à partir d’un export (alignement par lots) ;
  • une fois identifiées les entités absentes du référentiel, le partenaire peut :
    • soit transmettre à l’équipe Portail un ou plusieurs fichiers (de préférence au format CSV) pour intégration des entités dans la plateforme data.biblissima.fr ;
    • soit créer lui-même les entités concernées dans la plateforme, manuellement ou par versement par lots automatisé (via OpenRefine ou un script ad hoc).

Quel que soit le mode opératoire (manuel ou automatisé / au fil de l’eau ou a posteriori), il est fortement recommandé d’intégrer les identifiants Biblissima+ des entités dans les données à la source, que ce soit dans une base de données, une édition de source en XML-TEI ou une notice catalographique en XML-EAD. Ce reversement des identifiants du référentiel Biblissima+ permettra de faciliter les mises à jour ultérieures du jeu de données.

La plateforme data.biblissima.fr dispose des fonctionnalités nécessaires pour permettre des contributions extérieures, soit au fil de l’eau soit par versement en lots. Les moyens suivants sont disponibles pour contribuer aux référentiels :

  • l’interface web de la plateforme data.biblissima.fr, via le compte utilisateur qui aura été créé pour le partenaire ;
  • le logiciel client OpenRefine, qui dispose d'un module permettant de verser des items par lot dans la plateforme data.biblissima.fr via une interface graphique ;
  • des programmes informatiques ad hoc pouvant s’appuyer sur les API de la plateforme pour aligner, rechercher, créer, éditer, supprimer des items (cf. page API). Ces APIs peuvent par exemple être implémentées dans des modules d’applications web (formulaire de saisie de base de données) ou des plateformes d’édition de sources en XML.

Comment fournir les données ?

Protocoles et modes de partage des données

Pour le Portail Biblissima+ :

L’équipe Portail Biblissima+ prend en charge les modes d’exposition et de partage des données suivants :

Spécification Exemple
Entrepôt OAI-PMH OAI-PMH 2.0 Heidelberg ; NuBIS
Point d’accès IIIF API Change Discovery IIIF Change Discovery API Bodleian Libraries
Point d’accès Collections IIIF IIIF Presentation API 2.1 ou 3.0 Durham University
Entrepôt RDF avec point d’accès SPARQL SPARQL 1.1 Query Language data.bnf.fr
Dépôt d’un jeu de données dans un entrepôt fournissant un identifiant pérenne (ex. DOI)
Autre API Web (JSON ou XML) DTS ; Hydra ; Elasticsearch
Export dynamique au format XML pivot Biblissima cf. section Le format d’entrée du Portail : XML pivot Biblissima

L’équipe Portail Biblissima+ ne pourra engager du temps dans le traitement d’un jeu de données seulement si celui-ci est mis à disposition selon un des modes listés ci-dessus.

Pour les référentiels d’autorité (data.biblissima) :

Les équipes et projets recevant un financement de Biblissima+ sont fortement encouragés à aligner les données produites vers les référentiels d’autorité et à alimenter la plateforme data.biblissima.fr.

Les modalités de contribution aux référentiels Biblissima+ sont décrites plus en détail dans la section Comment s’aligner avec les référentiels Biblissima+ ? Comment y contribuer ?.

Rôles et responsabilités

Le partenaire :

  • définit, extrait et organise en amont son jeu de données ;
  • détermine le niveau d'accès souhaité en conformité avec le principe "aussi ouvert que possible, pas plus fermé que nécessaire" auquel tous les jeux de données produits dans le cadre de Biblissima+ sont soumis ;
  • traduit ce niveau d'accès dans une licence de diffusion et de réutilisation fournie avec les données (cette licence doit permettre à l'équipe de savoir si elle peut mettre à disposition les jeux de données enrichis par son intermédiaire) ;
  • dépose les jeux de données dans un entrepôt dédié au partage et à l'archivage de données (type Zenodo ou Nakala ou recherche.data.gouv) ;
  • choisit le protocole ou mode de partage des données qui lui semble le plus adapté (cf. liste ci-dessus) ;
  • fournit la documentation nécessaire à la compréhension des données(description dans un fichier README, fichier LICENCE, modèles ou schémas de structuration, règles de saisie ou de balisage etc.).

L’équipe Portail Biblissima+ :

  • échange avec le partenaire pour l’assister dans ses choix, répondre aux questions relatives à l’accès, à l’implémentation des protocoles, au choix des formats etc. ;
  • développe et maintient les scripts de collecte des jeux de données, d’extraction des métadonnées pertinentes pour Biblissima+ (cf. section Comment modéliser les jeux de données à intégrer ?, et de transformation pour leur intégration dans le Portail ;
  • analyse, traite et intègre les données dans l’infrastructure Biblissima+ de façon autonome.

IMPORTANT - Pour les projets candidats ou lauréats d’un appel à manifestation d'intérêt :

  • il est fortement recommandé de lire le présent vademecum dès la phase de candidature et d'écrire à l’adresse info-aap@biblissima-condorcet.fr pour toute question concernant les dispositions du vademecum ou d'obtenir un avis sur des choix techniques précis.

Intégration des données par l'équipe Portail

Le calendrier d'intégration par l'équipe Portail sera établi en prenant en compte les points suivants :

  • le partenaire fournit le jeu de données via un protocole permettant la récupération de ses mises à jour de façon automatisée et autonome par l’équipe Biblissima+ (point d’accès API, entrepôt OAI-PMH, triplestore, export XML dynamique au format pivot Biblissima) ;
  • le partenaire peut fournir ses données directement via des exports conformes au format XML pivot Biblissima ;
  • l'alignement des données avec les référentiels Biblissima+ et, le cas échéant, leur enrichissement, ont été réalisés avant la mise à disposition du jeu de données ;
  • les identifiants Biblissima des entités alignées ont été reversés dans les données produites par le partenaire à la source (fichiers XML, base de données relationnelles etc.) ;
  • la documentation accompagnant les données est suffisamment précise et complète pour permettre à l’équipe Biblissima de les comprendre et de faire le mapping vers le format pivot Biblissima (en particulier si les données sont structurées selon un modèle ou schéma conçu spécifiquement pour le projet) ;
  • une licence de diffusion et de réutilisation des données est explicitement mentionnée ;
  • pour les jeux de données déposées dans un entrepôt : respect des exigences minimales de gestion des données et de préparation des dépôts (cf. Plan de gestion de données v1.08, p. 19), et autant que possible respect des pratiques individuelles recommandées (cf. Plan de gestion de données v1.08, p. 21-22) ;
  • pour les bibliothèques numériques IIIF : respect des recommandations détaillées ci-dessous dans la section Recommandations pour les bibliothèques numériques IIIF ;
  • le cas échéant, le site web de publication des données dispose d’URL citables et stables, idéalement s’appuyant sur un système d’identifiants pérennes.

Comment modéliser les jeux de données à intégrer ?

Détail et richesse des informations fournies

Le degré d'intégration d’un jeu de données au sein du Portail Biblissima+ dépend directement de la richesse des informations fournies par le partenaire et de leur correspondance avec le format pivot utilisé pour rendre les données interopérables au sein du Portail.

Les tableaux ci-dessous renseignent à titre indicatif quelques types d’informations actuellement traités lors de l’intégration d’un jeu de données dans le Portail. Plus l'information est riche et correctement structurée dans les données fournies, plus des liens pourront être créés avec les ressources existantes, ce qui augmentera la visibilité du jeu de données et favorisera des exploitations croisées avec d'autres sources au sein du Portail.

Le Portail Biblissima+ est évolutif ; le format pivot utilisé pour y intégrer les données peut être adapté pour refléter les spécificités d’un jeu de données (par ex. pour prendre un charge un nouveau type de document, de nouveaux types d’entités ou de nouveaux champs de métadonnées, etc.).

Document (manuscrit ou imprimé)

Type(s) de document
Établissement de conservation
Cote
Date de production ou d’édition
Intervenant(s) (personnes et/ou collectivités associées au document)
Rôle des intervenants vis-à-vis du document
Langue du document
Lieu d’origine ou de publication du document
Oeuvres présentes dans le document, associées à leur(s) auteur(s)
Présentation du contenu du document
Identifiant de la ressource sur le site d’origine
URL stable de la notice
URL stable de la numérisation du document si disponible
URL stable du Manifest IIIF* du document si disponible

* Un "Manifeste" représente l'unité de distribution élémentaire dans l’univers de IIIF. Il prend la forme d'un fichier au format JSON qui contient juste assez de métadonnées (descriptives, structurelles, techniques) nécessaires à la présentation d’un objet numérisé. Pour une explication plus détaillée, voir cette présentation introductive de la session régionale IIIF France.

Oeuvre

Titre
Auteur
Traducteur
Langue
Identifiant de la ressource sur le site d’origine
URL stable de la ressource sur le site d’origine

Intervenant (personne physique ou morale)

Nom
Genre
Date de naissance ou date de fondation
Date de mort ou date de fin d’activité
Fonction
Lieu de résidence ou localisation
Identifiant de la ressource sur le site d’origine
URL stable de la ressource sur le site d’origine

Lieu

Libellé
Pays
Latitude
Longitude
Identifiant de la ressource dans le site d’origine
URL stable de la ressource sur le site d’origine

Formats et schémas supportés

Actuellement l’équipe Biblissima+ prend en charge les formats et schémas de métadonnées suivants :

  • XML Pivot Biblissima
  • MARC-XML
  • XML-EAD
  • XML-TEI
  • MODS ou METS-MODS
  • Dublin Core (OAI-PMH)
  • Manifeste IIIF (JSON-LD)

D’autres schémas et modèles pourront éventuellement être pris en charge à condition qu’ils soient reconnus comme standards ou solidement documentés.

Pour les bases de données relationnelles avec des structures complexes, les exports SQL ou dans un format tabulaire sont fortement déconseillés. Ainsi l’équipe Biblissima+ ne pourra pas garantir leur intégration dans le Portail. Il est recommandé de mettre à disposition des exports dans un des formats listés ci-dessus et de les fournir selon un des modes présentés dans la section précédente Comment fournir les données.

Le format d’entrée du Portail : XML pivot Biblissima

Cette section est en cours d'enrichissement. Une documentation plus détaillée du format XML pivot Biblissima sera publiée prochainement. Pour toute question veuillez contacter l'équipe Portail Biblissima+.

L’import des données dans le Portail se fait dans un format d’entrée unique nommé XML pivot Biblissima.

Il a été défini par l’équipe technique de Biblissima pour représenter de manière unifiée les structures hétérogènes des bases de données sources gérées par les partenaires. Il permet de mettre en interopérabilité au sein du Portail les jeux de données fournis.

Ce format pivot est évolutif, il peut être adapté ou modifié selon les besoins du Portail Biblissima et selon les spécificités des données à la source.

Le format XML pivot définit notamment les principaux types d’entités interrogeables dans le Portail :

  • <Book> (Livre manuscrit ou imprimé)
  • <Collection> (Ancienne collection de livres)
  • <Descriptor> (Descripteur, pour les bases iconographiques notamment)
  • <GroupBooks> (Regroupement de livres)
  • <Manifestation> (Édition)
  • <Participant> (Intervenant, personne physique ou morale)
  • <Place> (Lieu)
  • <Repository> (Établissement de conservation)
  • <Text> (Expression dans le sens FRBR)
  • <Work> (Oeuvre dans le sens FRBR)

La DTD du format XML pivot Biblissima est disponible ici : https://github.com/biblissima/bibma-metadata/blob/master/xml-pivot/XML_Pivot_Biblissima.dtd

Recommandations pour les bibliothèques numériques IIIF

Lien entre une notice descriptive et un Manifeste IIIF

Les bibliothèques numériques interrogeables dans le moteur IIIF-Collections sont majoritairement moissonnées via le protocole OAI-PMH. Or la plupart des entrepôts OAI-PMH repérés à ce jour omettent l'URL du Manifeste IIIF dans les enregistrements (records). Celle-ci est cependant un élément clé pour offrir un accès direct à la source numérisée dans le Portail Biblissima+ et dans IIIF-Collections.

L'ajout de cette information dans les métadonnées des enregistrements OAI permet de pallier ce manque de manière très simple. Ainsi il est recommandé de :

  • inclure l’URL du Manifeste IIIF dans un champ de métadonnées adéquat, à déterminer selon le schéma de métadonnées adopté (par ex. dc:HasFormat pour Dublin Core ; mods:url pour MODS, avec un attribut permettant de la distinguer des autres URL). L’idée est de pouvoir isoler facilement l’URL du Manifeste au moment de la collecte des métadonnées, quelle que soit la procédure employée pour cette opération (moissonnage d’un entrepôt OAI-PMH, de fichiers XML-TEI via un entrepôt de données etc.) ;
  • ou, à défaut, faire en sorte qu’il y ait une correspondance possible entre l’identifiant de l’enregistrement ou de la notice (par ex. l’identifiant OAI) et l’URL du Manifeste IIIF, et donc qu’il soit possible de construire la seconde à partir du premier.

Exposition des ressources IIIF via l’API IIIF Change Discovery

L’implémentation de l’API IIIF Change Discovery pour partager les ressources IIIF d’une bibliothèque numérique est encouragée (en remplacement ou en complément du protocole OAI-PMH). Cela faciliterait le moissonnage en masse de ces ressources et permettrait de fluidifier la récupération de leurs mises à jour.

Recommandation :

  • chaque object listé dans le flux d’activités exposé par l’API devrait pointer via la propriété seeAlso sur un fichier de métadonnées structurées (par ex. un fichier TEI, EAD, RDF-XML etc.). Cf. exemple dans https://iiif.io/api/discovery/1.0/#object ;
  • si possible, implémenter a minima le Level 1 de l’API afin de pouvoir opérer un moissonnage ciblé uniquement sur les ressources mises à jour depuis telle date (dans l’API IIIF Change Discovery, il n'est possible de cibler les ressources qui ont été modifiées depuis la date du dernier moissonnage qu'à partir du "level 1").

Métadonnées embarquées ou référencées dans les Manifestes

Il est fortement recommandé d’inclure un maximum de métadonnées descriptives au sein des Manifestes IIIF. Même lorsque des métadonnées riches sont accessibles par un autre moyen, par exemple via un entrepôt OAI-PMH, avoir un maximum d’informations dans le Manifeste lui-même a toujours une utilité : il permet de rendre l’objet numérisé compréhensible à un utilisateur quel que soit l’environnement dans lequel il le visualise (une plateforme de transcription, un outil d’annotation, ou n’importe quel visualiseur d’images IIIF…). Ainsi les métadonnées peuvent “voyager” avec l’objet, indépendamment du contexte. En l’absence d’entrepôt OAI-PMH ou tout autre point d’accès aux métadonnées, l’équipe Biblissima+ pourra, à défaut, récupérer celles encapsulées directement dans les Manifestes.

Une méthode complémentaire est de référencer les métadonnées source via la propriété seeAlso du Manifeste (https://iiif.io/api/presentation/3.0/#seealso). Cela permet de récupérer et d’indexer les métadonnées nécessaires à Biblissima+ dans un format structuré et exploitable informatiquement (XML, RDF etc.).

Recommandations :

Pré-requis techniques du serveur IIIF

Recommandations pour les éditions électroniques de sources

Le Portail Biblissima va interagir avec les éditions électroniques principalement par l'intermédiaire des entités nommées qui auront été préalablement balisées au sein du corpus édité. Le Portail n’a pas vocation à intégrer le texte intégral des éditions électroniques créées par les partenaires. Il permet cependant des liens croisés à partir des entités nommées (noms de personnes ou d'organisations, noms de lieux, mots clés, etc. ). Celles-ci disposent en effet de pages dédiées dans le Portail qui pourront réunir toutes les sources électroniques en faisant mention.

Pour ce faire, il est utile que les projets mettent en place des systèmes de citabilité permettant de référencer telle entité nommée. Par exemple, si l’entité “François Rabelais” figure dans une source, la page qui lui est déjà dédiée dans le Portail fera mention de cette occurrence dans un champ “Référencé(e) dans” avec l’intitulé et l’URL de la section (livre, chapitre, paragraphe) de la source éditée. Si une entité n’est pas encore présente dans le Portail, une page lui sera créée avec le champ “Référencé(e) dans” faisant mention de l’occurrence.

Pour faciliter ce processus, il est conseillé de faire un alignement des entités nommées vers les référentiels Biblissima ou un autre référentiel disponible dans le Linked Open Data.

Date de dernière mise à jour : 26 septembre 2022