Aller au contenu

Vademecum Biblissima : comment contribuer à l’infrastructure de données numériques ?

Ce vademecum a pour but de décrire les conditions et modalités d’intégration et de mise à jour des données dans l’infrastructure numérique de Biblissima+.

Il s’adresse avant tout :

  • aux équipes fondatrices de l’ÉquipEx+ Biblissima+ en charge de la réalisation de ses différents livrables ;
  • aux projets souhaitant répondre aux appels à manifestation d’intérêt (AMI) lancés chaque année par Biblissima+, afin de les aider à construire leur candidature ;
  • aux équipes des projets exploratoires et projets partenariaux sélectionnés à la suite d’un AMI, pour connaître les modalités d’intégration des données produites dans l’écosystème Biblissima+.

Ce guide s’applique donc à toutes les données et jeux de données produits dans le cadre des activités de recherche menées par les différentes équipes et ayant vocation à intégrer l’infrastructure numérique de Biblissima+. Cette infrastructure prend essentiellement la forme d’un portail d’accès unifié (Portail Biblissima) et d’une plateforme de référentiels d’autorité (data.biblissima.fr), s’inscrivant dans le périmètre P1 géré par l’équipe Portail et décrit dans le Plan de gestion des données de l’observatoire des cultures écrites Biblissima+ (10.5281/zenodo.7081673).

Ainsi le présent guide explique comment les producteurs de données agissant dans le cadre des périmètres P2 (livrables des équipes partenaires de l’ÉquipEx) et P3 (résultats des projets partenariaux) contribuent à l’enrichissement de l’infrastructure de données de Biblissima+.

Présentation de l’infrastructure de données

L’infrastructure de données de Biblissima+ s’appuie sur deux grandes briques, présentées brièvement ci-dessous :

Les données susceptibles d’intégrer ces deux plateformes peuvent provenir de ressources très diverses, parmi lesquelles : des bibliothèques numériques, des catalogues et répertoires, des bases de données scientifiques, des corpus spécialisés, des éditions électroniques de sources anciennes, ou encore des thesauri et listes d’autorité.

La page Ressources du site de Biblissima+ donne une vue d’ensemble des ressources produites et maintenues par les équipes partenaires de Biblissima 1 (2012-2021) et Biblissima+ (2021-2029). Cette autre page présente les principales évolutions du Portail depuis sa mise en ligne en avril 2017, en particulier les différentes ressources qui ont été traitées et intégrées par l’équipe au fil du temps.

Comment s’aligner avec les référentiels Biblissima ? Comment y contribuer ?

Les équipes et projets partenaires de Biblissima+ sont fortement encouragés à contribuer à l’enrichissement et à l’amélioration des référentiels publiés sur la plateforme data.biblissima.fr. En effet, la qualité du travail d’agrégation et de mise en interopérabilité des données au sein du Portail Biblissima est étroitement liée à celle des référentiels, de leur utilisation et de leur enrichissement par les équipes financées.

Le mode opératoire pour contribuer aux référentiels peut être résumé ainsi :

  1. en amont le partenaire aligne ses données avec le ou les référentiels pertinents : cotes, personnes, organisations, lieux, oeuvres ou descripteurs iconographiques.

    • cette opération peut se faire soit au fil de l’eau (au cours du travail de saisie ou de balisage), soit a posteriori à partir d’un export (alignement par lots) ;
  2. une fois identifiées les entités absentes du référentiel, le partenaire peut :

    • soit transmettre à l’équipe Portail un ou plusieurs fichiers (de préférence au format CSV) pour intégration des entités dans la plateforme data.biblissima.fr
    • soit créer lui-même les entités concernées dans la plateforme, manuellement ou par versement par lots automatisé (via OpenRefine ou un script ad hoc)

Important

Quel que soit le mode opératoire (manuel ou automatisé / au fil de l’eau ou a posteriori), il est fortement recommandé d’intégrer les identifiants Biblissima des entités dans les données à la source, que ce soit dans une base de données, une édition de source en XML-TEI ou une notice catalographique en XML-EAD. Ce reversement des identifiants du référentiel Biblissima permettra de faciliter les mises à jour ultérieures du jeu de données.

La plateforme data.biblissima.fr dispose des fonctionnalités nécessaires pour permettre des contributions extérieures, soit au fil de l’eau soit par versement en lots.

Les dispositifs suivants sont disponibles pour contribuer aux référentiels :

  • l’interface web de la plateforme data.biblissima.fr, via le compte utilisateur qui aura été créé pour le partenaire ;
  • le logiciel client OpenRefine, qui dispose d’un module permettant de verser des items par lot dans la plateforme à l’aide d’une interface graphique ;
  • des programmes informatiques ad hoc pouvant s’appuyer sur les API de la plateforme pour aligner, rechercher, créer, éditer, supprimer des items (cf. page API). Ces APIs peuvent par exemple être implémentées dans des modules d’applications web (formulaire de saisie de base de données) ou des plateformes d’édition de sources en XML développées au sein des équipes partenaires de Biblissima+.

Comment fournir les données ?

Protocoles et modes de partage des données

Pour le Portail Biblissima :

L’équipe Portail Biblissima+ prend en charge les modes d’exposition et de partage des données suivants :

Spécification Exemple
Entrepôt OAI-PMH OAI-PMH 2.0 Heidelberg ; NuBIS
Point d’accès IIIF API Change Discovery IIIF Change Discovery API Bodleian Libraries
Point d’accès Collections IIIF IIIF Presentation API 2.1 ou 3.0 Durham University
Entrepôt RDF avec point d’accès SPARQL SPARQL 1.1 Query Language data.bnf.fr
Dépôt d’un jeu de données dans un entrepôt fournissant un identifiant pérenne (ex. DOI)
Autre API Web (JSON ou XML) Activity Streams ; DTS ; Hydra ; Elasticsearch
Export dynamique au format pivot Biblissima Format pivot Biblissima

Important

L’équipe Portail Biblissima+ ne pourra engager du temps dans le traitement d’un jeu de données seulement si celui-ci est mis à disposition selon un des modes listés ci-dessus.

D’autres méthodes ou protocoles pourront éventuellement être pris en charge à condition qu’ils permettent à l’équipe de récupérer les données de façon autonome et automatisable.

Pour toute question veuillez contacter l’équipe Portail à l’adresse team(at)biblissima-condorcet.fr.

Pour les référentiels d’autorité (data.biblissima) :

Les équipes et projets recevant un financement de Biblissima+ sont fortement encouragés à aligner les données produites vers les référentiels d’autorité et à alimenter la plateforme data.biblissima.fr.

Les modalités de contribution aux référentiels Biblissima sont présentées dans la section Comment s’aligner avec les référentiels Biblissima ? Comment y contribuer ?.

Rôles et responsabilités

Le partenaire :

  • définit, extrait et organise en amont son jeu de données ;
  • détermine le niveau d’accès souhaité en conformité avec le principe “aussi ouvert que possible, pas plus fermé que nécessaire” auquel tous les jeux de données produits dans le cadre de Biblissima+ sont soumis ;
  • traduit ce niveau d’accès dans une licence de diffusion et de réutilisation fournie avec les données (cette licence doit permettre à l’équipe de savoir si elle peut mettre à disposition les jeux de données enrichis par son intermédiaire) ;
  • dépose les jeux de données dans un entrepôt dédié au partage et à l’archivage de données (type Zenodo ou Nakala ou recherche.data.gouv) ;
  • choisit le protocole ou mode de partage des données qui lui semble le plus adapté (cf. liste ci-dessus) ;
  • fournit la documentation nécessaire à la compréhension des données(description dans un fichier README, fichier LICENCE, modèles ou schémas de structuration, règles de saisie ou de balisage etc.).

L’équipe Portail Biblissima+ :

  • échange avec le partenaire pour l’assister dans ses choix, répondre aux questions relatives à l’accès, à l’implémentation des protocoles, au choix des formats etc. ;
  • développe et maintient les scripts de collecte des jeux de données, d’extraction des métadonnées pertinentes pour Biblissima+, et de transformation pour leur intégration dans le Portail ;
  • analyse, traite et intègre les données dans l’infrastructure Biblissima+ de façon autonome.

Important

Pour les projets candidats ou lauréats d’un appel à manifestation d’intérêt :

  • il est fortement recommandé de lire le présent vademecum dès la phase de candidature et d’écrire à l’adresse info-aap@biblissima-condorcet.fr pour toute question concernant les dispositions du vademecum ou d’obtenir un avis sur des choix techniques précis.

Intégration des données par l’équipe Portail

Le calendrier d’intégration par l’équipe Portail sera établi en prenant en compte les points suivants :

  • le partenaire fournit le jeu de données via un protocole permettant la récupération de ses mises à jour de façon automatisée et autonome par l’équipe Biblissima+ (point d’accès API, entrepôt OAI-PMH, triplestore, export XML dynamique au format pivot Biblissima) ;
  • le partenaire peut fournir ses données directement via des exports conformes au format XML pivot Biblissima ;
  • l’alignement des données avec les référentiels Biblissima et, le cas échéant, leur enrichissement, ont été réalisés avant la mise à disposition du jeu de données ;
  • les identifiants Biblissima des entités alignées ont été reversés dans les données produites par le partenaire à la source (fichiers XML, base de données relationnelles etc.) ;
  • la documentation accompagnant les données est suffisamment précise et complète pour permettre à l’équipe Biblissima de les comprendre et de faire le mapping vers le format pivot Biblissima (en particulier si les données sont structurées selon un modèle ou schéma conçu spécialement pour le projet) ;
  • une licence de diffusion et de réutilisation des données est explicitement mentionnée ;
  • pour les jeux de données déposées dans un entrepôt : respect des exigences minimales de gestion des données et de préparation des dépôts (cf. Plan de gestion de données v1.08, p. 19), et autant que possible respect des pratiques individuelles recommandées (cf. Plan de gestion de données v1.08, p. 21-22) ;
  • pour les bibliothèques numériques IIIF : respect des recommandations détaillées ci-dessous ;
  • le cas échéant, le site web de publication des données dispose d’URL citables et stables, idéalement s’appuyant sur un système d’identifiants pérennes.

Comment modéliser les jeux de données à intégrer ?

Détail et richesse des informations fournies

Le degré d’intégration d’un jeu de données au sein du Portail Biblissima dépend directement de la richesse des informations fournies par le partenaire et de leur correspondance avec le format pivot Biblissima utilisé pour rendre les données interopérables au sein du Portail.

Les tableaux ci-dessous renseignent à titre indicatif quelques types d’informations actuellement traités lors de l’intégration d’un jeu de données dans le Portail. Plus l’information est riche et correctement structurée dans les données fournies, plus des liens pourront être créés avec les ressources existantes, ce qui augmentera la visibilité du jeu de données et favorisera des exploitations croisées avec d’autres sources au sein du Portail.

Info

Le Portail Biblissima est évolutif. Le format pivot utilisé pour y intégrer les données peut être adapté pour refléter les spécificités d’un jeu de données, notamment pour prendre en charge un nouveau type de document, de nouveaux types d’entités ou de nouveaux champs de métadonnées. De même l’équipe Portail pourra ajuster en conséquence l’affichage des données sur les pages web.

Document (manuscrit ou imprimé) :

Type d’élément Exemple
Type(s) de document manuscrit
Établissement de conservation Paris. Bibliothèque Mazarine
Cote Ms 592
Date de production ou d’édition 1425-1450
Intervenant(s) (personne et/ou collectivité associée au document) Augustin (saint, 0354-0430) ; Jean d'Aussy (14..-1453)
Rôle des intervenants vis-à-vis du document Auteur du texte ; Copiste
Langue du document latin
Lieu d’origine ou de publication du document France
Oeuvres présentes dans le document, associées à leur(s) auteur(s) Augustin (saint, 0354-0430) : La cité de Dieu
Présentation du contenu du document
Identifiant de la ressource sur le site d’origine 3116
URL stable de la notice http://www.calames.abes.fr/pub/ms/MAZA12275
URL stable de la numérisation du document si disponible https://mazarinum.bibliotheque-mazarine.fr/idurl/1/3116
URL stable du Manifest IIIF (1) si disponible https://mazarinum.bibliotheque-mazarine.fr/iiif/3116/manifest

(1) Un “Manifeste” représente l’unité de distribution élémentaire dans l’univers de IIIF. Il prend la forme d’un fichier au format JSON qui contient les métadonnées nécessaires à la présentation et au partage d’un objet numérisé. Pour une explication plus détaillée, voir la page Introduction à IIIF.

Oeuvre :

Type d’élément Exemple
Titre de l’oeuvre Éthique à Nicomaque
Auteur Aristote (0384-0322 av. J.-C.)
Langue grec
Identifiant de la ressource sur le site d’origine 6280
URL stable de la ressource sur le site d’origine https://pinakes.irht.cnrs.fr/notices/oeuvre/6280/

Texte :

Type d’élément Exemple
Titre du texte Ethica Nicomachea
Auteur Aristote (0384-0322 av. J.-C.)
Traducteur Robert Grosseteste (1175?-1253)
Langue latin

Intervenant (personne physique ou morale) :

Type d’élément Exemple
Nom François Rabelais
Genre masculin
Date de naissance ou date de fondation 1494
Date de mort ou date de fin d’activité 1553
Lieu de résidence ou localisation
Identifiant de la ressource sur le site d’origine bvhbibfr_01681
URL stable de la ressource sur le site d’origine https://bibfr.bvh.univ-tours.fr/bibfr/personne/bvhbibfr_01681

Lieu :

Type d’élément Exemple
Libellé Saint-Benoît-sur-Loire
Pays France
Latitude 47.80561
Longitude 2.31274
Identifiant de la ressource dans le site d’origine
URL stable de la ressource sur le site d’origine

Formats et schémas supportés

Actuellement l’équipe Biblissima+ prend en charge les formats et schémas de métadonnées suivants :

  • XML Pivot Biblissima
  • MARC-XML
  • XML-EAD
  • XML-TEI
  • MODS ou METS-MODS
  • Dublin Core (OAI-PMH)
  • Manifeste IIIF (JSON-LD)

Important

D’autres schémas et modèles pourront éventuellement être pris en charge à condition qu’ils soient reconnus comme standards ou solidement documentés.

Pour les bases de données relationnelles avec des structures complexes, les exports SQL ou dans un format tabulaire sont déconseillés. Ainsi l’équipe Biblissima+ ne pourra pas garantir leur intégration dans le Portail. Il est recommandé de mettre à disposition des exports dans un des formats listés ci-dessus et de les fournir selon un des modes présentés dans la section précédente Comment fournir les données ?.

Pour toute demande veuillez contacter l’équipe Portail à l’adresse team(at)biblissima-condorcet.fr.

Recommandations pour les bibliothèques numériques IIIF

Lien entre une notice descriptive et un Manifeste IIIF

Les bibliothèques numériques IIIF interrogeables dans Biblissima sont majoritairement moissonnées via le protocole OAI-PMH. Or la plupart des entrepôts OAI-PMH repérés à ce jour omettent l’URL du Manifeste IIIF dans les enregistrements (Records). Celle-ci est cependant un élément clé pour offrir un accès direct à la source numérisée dans le Portail Biblissima et dans IIIF-Collections.

L’ajout de cette information dans les métadonnées des enregistrements OAI permet de pallier ce manque de manière très simple.

Recommandations

  • inclure l’URL du Manifeste IIIF dans un champ de métadonnées adéquat, à déterminer selon le schéma de métadonnées adopté (par exemple dc:HasFormat pour Dublin Core ; mods:url pour MODS, avec un attribut permettant de la distinguer des autres URL). L’idée est de pouvoir isoler facilement l’URL du Manifeste au moment de la collecte des métadonnées, quelle que soit la procédure employée pour cette opération (moissonnage d’un entrepôt OAI-PMH, de fichiers XML-TEI via un entrepôt de données etc.) ;

  • ou, à défaut, faire en sorte qu’il y ait une correspondance possible entre l’identifiant de l’enregistrement ou de la notice (par exemple l’identifiant OAI) et l’URL du Manifeste IIIF, et donc qu’il soit possible de construire la seconde à partir du premier.

Exposition des ressources IIIF via l’API IIIF Change Discovery

L’implémentation de l’API IIIF Change Discovery pour partager les ressources IIIF d’une bibliothèque numérique est encouragée (en remplacement ou en complément du protocole OAI-PMH). Cela faciliterait le moissonnage en masse de ces ressources et permettrait de fluidifier la récupération de leurs mises à jour.

Recommandation

  • chaque object listé dans le flux d’activités exposé par l’API devrait pointer via la propriété seeAlso sur un fichier de métadonnées structurées (un fichier TEI, EAD, RDF-XML etc.). Voir l’exemple dans https://iiif.io/api/discovery/1.0/#object ;

  • si possible, implémenter a minima le Level 1 de l’API afin de pouvoir opérer un moissonnage ciblé uniquement sur les ressources mises à jour depuis telle date (dans l’API IIIF Change Discovery, il n’est possible de cibler les ressources qui ont été modifiées depuis la date du dernier moissonnage qu’à partir du “level 1”).

Exemple d’API Change Discovery (Oxford, Bodleian Libraries) : https://iiif.bodleian.ox.ac.uk/iiif/activity/all-changes

Métadonnées embarquées ou référencées dans les Manifestes

Il est fortement recommandé d’inclure un maximum de métadonnées descriptives au sein des Manifestes IIIF. Même lorsque des métadonnées riches sont accessibles par un autre moyen, par exemple via un entrepôt OAI-PMH, avoir un maximum d’informations dans le Manifeste lui-même a toujours une utilité : il permet de rendre l’objet numérisé compréhensible à un utilisateur quel que soit l’environnement dans lequel il le visualise (une plateforme de transcription, un outil d’annotation, ou n’importe quel visualiseur d’images IIIF…). Ainsi les métadonnées peuvent “voyager” avec l’objet, indépendamment du contexte. En l’absence d’entrepôt OAI-PMH ou tout autre point d’accès aux métadonnées, l’équipe Biblissima+ pourra, à défaut, récupérer celles encapsulées directement dans les Manifestes.

Une méthode complémentaire est de référencer les métadonnées source via la propriété seeAlso du Manifeste (https://iiif.io/api/presentation/3.0/#seealso). Cela permet de récupérer et d’indexer les métadonnées nécessaires à Biblissima+ dans un format structuré et exploitable informatiquement (XML, RDF etc.).

Recommandations

Pré-requis techniques du serveur IIIF

Recommandations

Recommandations pour les éditions électroniques de sources

Le Portail Biblissima va interagir avec les éditions électroniques principalement par l’intermédiaire des entités nommées qui auront été préalablement balisées au sein du corpus édité. Le Portail n’a pas vocation à intégrer le texte intégral des éditions électroniques créées par les partenaires. Il permet cependant des liens croisés à partir des entités nommées (noms de personnes ou d’organisations, noms de lieux, mots clés, etc. ). Celles-ci disposent en effet de pages dédiées dans le Portail qui réunissent toutes les sources électroniques en faisant mention.

Pour ce faire, il est utile que les projets mettent en place des systèmes de citabilité permettant de référencer telle entité nommée. Par exemple, si l’entité “François Rabelais” figure dans une source, la page qui lui est déjà dédiée dans le Portail fera mention de cette occurrence dans un champ “Référencé(e) dans” avec l’intitulé et l’URL de la section (livre, chapitre, paragraphe) de la source éditée. Si une entité n’est pas encore présente dans le Portail, une page lui sera créée avec le champ “Référencé(e) dans” faisant mention de l’occurrence.

Pour faciliter ce processus, il est conseillé de faire un alignement des entités nommées vers les référentiels Biblissima ou un autre référentiel disponible dans le Linked Open Data.


Dernière mise à jour: November 10, 2022