WP4 : Humanités numériques

1   Objectifs généraux

Dans la continuité des projets FEDER LEONUM-SHS et INTERREG IVA DocExplore, l’objectif de cet axe est de renforcer, de développer et de rendre plus visibles les projets scientifiques stratégiques numériques en sciences humaines et sociales. Il constitue l’un des volets de la structuration des SHS en Normandie. En effet, ce projet vise à mutualiser un certain nombre de travaux des laboratoires autour des éditions de corpus littéraires et musicaux, l’étude du patrimoine littéraire notamment normand, l’interprétation des œuvres et plus précisément l’étude des phénomènes de réécriture, de réception et de transformation des textes.

Les avantages d’une documentation numérique ou d’une base de données en ligne concernent à la fois : i) les possibilités de mise à jour immédiate et donc d’enrichissement des textes ou des bases de données ; ii) l’ajout immédiat de textes inédits, à leur place (dans une édition papier, il faut attendre une réédition, souvent tardive, et les nouveaux textes se trouvent rejetés en annexe, pour éviter une nouvelle mise en page complète) ; iii) la correction en temps réel avec l’apparition de lettres inédites ou la découverte d’un élément nouveau qui permet souvent de re-dater des lettres déjà connues ; iv) des progrès dans la mise en œuvre et la consultation en raison de la nature même du support et l’accès à des informations pour des publics variés qu’ils soient chercheurs, enseignants-chercheurs, décideurs publics et privés, grand public.

1 : Recherche d’objets graphiques dans des images de documents

L’équipe Apprentissage du LITIS a développé des techniques de détection d’imagettes (word spotting ou object spotting) dans un corpus d’images. Ces techniques ont été développées notamment dans le cadre du post-doc de Vladislavs Dovgalecs (INTERREG IVA DocExplore) et la thèse de Sovann En (allocation régionale LMN PlaIR 2.0). Ces techniques ont atteint une maturité suffisante pour développer un logiciel de recherche d’objets graphiques (visages, drapeaux, blasons, lettrines, personnages, …) dans les images de documents historiques (gravures, dessins, cartes et plans, estampes, documents médiévaux,…) à l’usage des historiens et archivistes, mais aussi du grand public.

2 : Outils numériques pour l’interprétation des œuvres

Dans la continuité de LEONUM-SHS et DocExplore, l’objectif du projet vise, à travers les projets d’édition littéraire numérique en cours, à réaliser des développements d’outils informatiques pour l’indexation, l’enrichissement des métadonnées et l’analyse génétique des œuvres. Pour atteindre ces buts, de nouvelles possibilités seront ajoutées à la suite DocExplore : feuilleteur sur tablettes, enrichissement de documents plans (rouleaux, cartes, tableaux, etc.).

3 : Usages de Scan on Demand par les Humanités Numériques

À travers les projets d’édition littéraire numérique menés actuellement dans le cadre du projet LEONUM-SHS piloté par l’IRIHS (Institut de Recherche Interdisciplinaire Homme Société), cette tâche testera des cas d’usages de la chaîne Scan on Demand par les équipes de Sciences Humaines et Sociales. On peut citer notamment la Bibliothèque de Droit Normand (actuellement numérisée en mode image) et le fonds Montbret de FIBIA. Ces deux corpus permettront d’instancier l’OCR de Scan On Demand sur des documents imprimés mais également manuscrits, et de tester l’environnement de travail Digital Paris Normandie pour la transcription collaborative et l’édition.

2  Définition des priorités

Le WP4 s’inscrit dans le cadre du consortium européen d’infrastructures de recherche DARIAH coordonné en France par la Très Grande Infrastructure de Recherche (TGIR) Huma-Num visant à développer et soutenir la recherche dans toutes les disciplines des Sciences Humaines et Sociales fondée sur des objets numériques et de favoriser la diffusion des méthodes associées dans le domaine des Sciences Humaines et du champ patrimonial (Art & Humanities).

Dans ce cadre, l’objectif du WP4.2 est de proposer des fonctionnalités d’interprétation des œuvres en s’appuyant sur les services d’Huma-Num.

Les deux premiers objectifs généraux sont :

– la sélection des corpus correspondant au cahier des charges des équipes du LITIS,

– l’identification des attentes des enseignants-chercheurs de l’IRIHS.

Lors de cette phase, plusieurs objectifs techniques ont pu être déterminés :

– faciliter l’import et l’indexation des données de la recherche sur la plateforme NAKALA proposée par Huma-Num,

– actualiser les technologies présentes sur le site Flaubert ainsi que la plateforme DocExplore, tout en respectant les standards d’interopérabilité.

– normaliser la saisie des metadonnées sous nakala au moyen d’un guide aux utilisateurs rattachés à l’IRIHS

– proposer aux enseignants-chercheurs une forme ergonomique de consultation des ouvrages numérisés en tenant compte des dispositifs proposés par l’outil Nakalona d’Huma-Num.

 3. Travaux en cours

3.1 : Recherche d’objets graphiques dans les images de documents

Ces travaux dans WP4.1 concernent les systèmes de recherche d’images par le contenu (en anglais Content Based Image Retrieval – CBIR) et ont été réalisés dans le cadre de la thèse de Sovann EN, allocation régionale GRR LMN PLaIR2.0, qui a été soutenue en novembre 2016. Sur la période Septembre 2015 à Avril 2017, dernière année de la thèse de Sovann En, nous avons finalisé et fiabilisé le système de détection des objets graphiques dans les images que nous avions mis au point dans les deux années précédentes (ICDAR2015, VISAPP2015, GRETSI2015). Nous nous sommes en particulier intéressés à la notion d’objectness, utilisée dans notre système comme une composante en début de chaîne de traitement (pre-processing) donc essentielle pour une bonne indexation des sous-images pouvant potentiellement contenir des objets graphiques. Pour mieux intégrer cette composante dans notre système, nous avons procédé à un apprentissage automatique de l’objectness sur une base d’images de documents qu’il nous a fallu annoter. Nous avons également travaillé sur le problème de la localisation pour situer précisément les patterns, cette localisation fine nous permettant par ailleurs de ré-ordonner les régions candidates voire de rejeter certaines régions (fausses alarmes). Cette stratégie a donné de très bons résultats qui ont fait l’objet de deux communications en conférences internationales (ICPR2016, ICFHR2016).

Notre système de détection d’objets graphiques a également été adapté et testé sur une autre tâche, la détection de mots manuscrits (word spotting), tâche habituellement utilisée en interrogation d’images de documents manuscrits pour la recherche d’informations textuelles. Cette valorisation scientifique du travail nous a permis de comparer notre propre système aux systèmes de word spotting de la communauté internationale sur des bases de données publiques et a montré que notre système donnait des résultats à l’état de l’art, nécessitant moins de ressources (calcul et mémoire). Ces résultats ont été publiés dans la revue internationale Pattern Recognition.

Nous avons également mis à disposition de la communauté internationale la base d’images annotées utilisée pendant ces travaux ainsi que le protocole expérimental associé pour la détection des patterns dans les documents anciens. Les données annotées ainsi que le démonstrateur sont disponibles sur http://spotting.univ-rouen.fr et ont fait l’objet d’une publication dans la revue internationale Journal of Electronic Imaging.

Le code permettant d’évaluer en ligne les tâches de recherche d’images et de localisation des objets graphiques dans la base d’images annotées est maintenant disponible sur: http://spotting.univ-rouen.fr/?page_id=13

3.2 : Outils numériques pour l’interprétation des œuvres

Dans ce WP4.2, nous avons identifié les corpus « prototypes » suivants :

–   la bibliothèque des oeuvres des juristes du droit normand, dite « Bibliothèque David Hoüard, Bibliothèque numérique de droit normand », sous la responsabilité scientifique de Géraldine Cazals avec le soutien de l’IUF. La création de la Bibliothèque David Hoüard, Bibliothèque numérique de droit normand répond au souci de faciliter l’accès aux sources juridiques normandes de la fin du Moyen Âge et de l’époque moderne, et à la volonté de développer les recherches dans ce domaine. Ce projet permettra d’amener à l’étude du droit normand un nombre de plus en plus nombreux d’enseignants-chercheurs issus d’autres disciplines et d’autres universités françaises et étrangères et ainsi d’étendre la sphère des travaux consacrés l’histoire de la pensée juridique (voir notamment, « L’histoire de la pensée juridique : historiographie, actualité et enjeux », Géraldine Cazals, Nader Hakim, Clio@Themis, Revue électronique d’histoire du droit, 14, 2018.)

–    la BIbliothèque Virtuelle de l’Université de Rouen de Fonds IBériques et Italiens Anciens de la Bibliothèque Municipale de Rouen dite « Fibia », sous la responsabilité scientifique de Mathias Schonbuch. Ce projet a pour objectif la valorisation des fonds anciens ibériques et italiens (1450-1800) de la Bibliothèque Municipale de Rouen d’une importance nationale dans le cadre du projet « La Normandie ouverte sur le monde ». Il vise à rendre le fonds à la fois plus accessible et plus opérationnel à la recherche, à travers la création d’un site et d’un feuilleteur avec contenu à valeur ajoutée.

–     le fonds Pierre Renaudel de la Fondation Jean-Jaurès, sous la responsabilité scientifique de Jean-Numa Ducange dans le cadre de programme régionaux EuroSoc et PAIX. Le projet EUROSOC vise à établir et consolider un réseau de recherche sur l’histoire du socialisme européen (des années 1870 à l’avant 1914) aux niveaux régional, national et européen dans la continuité du Consortium « Mondes contemporains » : il vise notamment à mettre à disposition de tous, sous forme numérique, des documents et archives rares voire inédit(e)s lié(e)s à ce thème, à constituer un outil bibliographique multilingue et à approfondir la réflexion historique sur les conditions de naissance de la diversité des mouvements socialistes à la fin du XIXe et au début du XXe siècle, leurs sources théoriques et leurs structurations pratiques.

Nous travaillons avec les enseignants-chercheurs du domaine SHS sur leurs attentes qui concernent:

  • l’identification des exemples d’éléments des corpus (visualisation d’objets dans les numérisations déjà réalisées),
  • l’articulation de la problématique avec les axes de recherche disciplinaire et les besoins en termes de (méta)données de recherche,
  • l’échange sur les caractéristiques des objets graphiques recherchés, le type de document numérique stocké, les modalités d’indexation des archives, etc.

En réponse aux besoins des chercheurs, les réalisations suivantes sont en cours d’implémentation avec une échéance à court terme :

1 – Développement d’outils pour l’indexation et l’enrichissement des métadonnées :

Nakala Easy Batch :

Il s’agit d’un outil facilitant l’import en masse de documents sur l’application NAKALA. Il automatise les étapes d’archivage et d’invocation par ligne de commande qui seraient normalement requises pour importer des documents en groupe.

Normalisation des métadonnées associées aux fonds patrimoniaux étudiés :

La bibliothèque numérique du droit normand fait l’objet d’une normalisation des métadonnées sous le modèle Dublin Core adapté au corpus étudié et à l’usage de la plateforme Nakala d’HumaNum. Cette même normalisation est en cours d’évaluation pour le corpus FIBIA. La perspective à court terme pour le premier corpus est l’insertion de la bibliothèque dans le moteur de recherche Isidore. Un mode d’emploi permettant l’harmonisation des pratiques de normalisation des métadonnées a été élaboré et évoluera en fonction des besoins et échanges sur les divers corpus du projet.

2 – Actualisation des technologies existantes :

Plugin OMEKA pour tableaux de génétique textuelle :

ce plugin permet la saisie et l’affichage de tables génétiques dans le cadre de la mise à jour des technologies du site Flaubert. Outre une amélioration de l’ergonomie et des tâches de maintenance, ce plugin ouvre de nouvelles perspectives d’interopérabilité des données contenues dans les tables grâce à l’intégration dans le modèle de données OMEKA.

Les fonctionnalités du module ont été étendues, en particulier sur l’application cliente :

–        Support de la saisie collaborative des transcriptions diplomatiques

–   Visualisation simultanée des numérisations et des transcriptions avec cadrage automatique

–        Navigation visuelle par graphe relationnel en plus de la navigation linéaire

Figure- Vue par graphe des fragments de manuscrit

Un thème pour Omeka (Thème Bovary) a également été développé pour accompagner le module et permet d’optimiser l’affichage des éditions génétiques. Cette décorrélation facilite l’adoption du module sur d’autres sites institutionnels.

Un outil de conversion des bases de données existantes des éditions génétiques (présentes sur le site Flaubert – sous la responsabilité scientifique d’Yvan Leclerc) a été développé (Flaubert2Xml) afin de permettre la migration automatique des contenus vers Omeka. Etant donné le large volume de données potentiel d’une édition génétique (les bases existantes représentent par exemple 7Go d’images et de transcriptions), l’import est implémenté en flux asynchrone AJAX permettant d’éviter les risques d’erreur et de sécurité d’une méthode ordinaire.

Ces développements ont pu être déployés sur un serveur de test attestant des aspects fonctionnels et garantissant leur compatibilité avec d’une part les serveurs existants et d’autre part les navigateurs clients susceptibles d’être utilisés.

Le plugin contient également une couche d’interopérabilité avec le CMS Nakala qui offre plusieurs avantages quant aux numérisations :

  • La pérennisation des images avec la validation FACILE (https://facile.cines.fr/)
  • Une adresse unique pour localiser les contenus
  • Des archives beaucoup moins volumineuses et plus simples à manipuler ou échanger du fait de l’utilisation de références en lieu des images elles-mêmes

Un outil de conversion des exports issus de la base de données précédente a été développé (Omeka2Nakala) pour automatiser le remplacement des images par des références. Toutes les numérisations existantes autour de Madame Bovary et de Bouvard et Pécuchet ont été mises en ligne sur Nakala.

Extension des capacités d’affichage de DocExplore :

Il s’agit d’élargir les plateformes sur lesquelles nous pouvons déployer une présentation DocExplore en développant un module d’affichage pour le Web offrant les même fonctionnalités que le module d’affichage “desktop” traditionnel. Additionnellement, ce module est intégré au sein de clients natifs pour OS mobiles (Android et iOS) afin de couvrir un vaste éventail de plateformes vers lesquelles une présentation peut être exportée.

Le feuilleteur en ligne DocExplore a donc été augmenté pour inclure l’essentiel des fonctionnalités proposées par la version pour bureau, notamment le modèle physique à la base de l’interaction et de la visualisation des œuvres virtuelles. Il a également adopté des standards web modernes de requêtes asynchrones et de déploiement (à présent intégralement en Javascript) pour améliorer la réactivité et la facilité de mise en place.

Figure: Présentation plein écran dans le navigateur

 

Ces développements ont permis de créer un plugin pour WordPress automatisant l’intégration de présentations DocExplore, permettant à la plateforme de couvrir la grande majorité des besoins de mise en ligne de contenus. Ils facilitent également l’intégration future avec d’autres CMS.

Dans le cadre du support de DocExplore pour les « grands documents » (tels que les cartes ou les rouleaux), un outil de raccordement d’images a été réalisé proposant la détection automatique et la définition manuelle de zones de correspondance. Cet outil rend possible la création d’œuvres digitales normalement réservée aux ateliers de numérisation. Il est totalement intégré à la plateforme existante et offre, conjointement avec les outils de gestion des grands documents et l’extension du module d’affichage pour leur intégration à une présentation, une suite complète pour la création, l’annotation et la présentation de ce type de documents.

Exemple de raccordement d’un grand document

Les outils d’augmentation existants ont été étendus pour accommoder ces documents sans changer la méthode de travail utilisée pour la création de livres. Un système de tuilage multi-résolution permet de conserver ces document sans en dégrader la qualité, aussi bien pour la gestion que pour la consultation. Des réalisations de test ont été faites à partir de la numérisation “en morceaux” du Rouleau Généalogique (Msu18Bis) et des planches du Livre des Fontaines (Msxg3). Ces réalisations ont été intégralement réalisées avec la nouvelle version de la plateforme, sans recours à des outils extérieurs.

WP 4.3 : Usages de Scan on Demand par les Humanités Numériques

Fonds Italien et Ibérique de la BMR (Mathias Schonbuch)

–       Fonds issus de collections privées du 19ème des officiels qui avaient dû constituer une collection en Italie fin 18ème. Puis ces collections ont été dispersées, revendues et enfin léguées à la BMR.

–    Les originaux datent du 18ème ou avant (manuscrits du 16ème)

–   Lettres privées, ouvrages politiques, théologiques, hippiques, etc. Il existe des petits noyaux thématiques.

–    2 fonds importants : fonds LEBER et fonds MONBRET qui ont légués leurs collections + fonds provenant de couvents ou maisons religieuses de Rouen à la BMR au début 19ème

Les expérimentations que nous nous proposons de mener avec Mathias Schonbuch vont concerner les ouvrages suivants :

1.     Jeux Mathématiques : Mono-scripteurs et déjà transcrits, 36 pages. La transcription diplomatique doit être faite par Mathias Schonbuch. Ce premier ouvrage doit servir de test des algorithmes de reconnaissance.

2.     Manuscrits Montbret 558 (1574): « Instructions pour le gouvernement de Padoue » : écriture mono-scripteur régulière, 200 pages, la transcription diplomatique doit être faite par Mathias Schonbuch.  (20 pages sont envisagées pour permettre l’apprentissage du système de reconnaissance)

3.     MSTMT- 431, Montbret 431 (1574) : Du même scripteur «Instructions, ordres et lois de la république de Venise »

Le fonds de droit Normand (Géraldine Cazals):https://droit-normand.nakalona.fr/

C’est un fonds imprimé et manuscrit qui présente un niveau de difficulté intermédiaire que nous analyserons dans un second temps avec Géraldine Cazals. Une transcription partielle du manuscrit ms 28F62 (mon-scripteur) a été réalisée par un doctorant allocataire.

 

Le fonds Renaudel (Jean-Numa Ducange)

C’est un fonds de correspondances de Jean Renaudel avec Jean Jaurès. Il regroupe de nombreux documents manuscrits et imprimés. Il présente donc un niveau de difficulté élevé pour les systèmes de reconnaissance automatiques. C’est la raison pour laquelle nous l’exploiterons dans une ultime étape de notre projet.

Réseaux, recrutement et formations

Soucieux de l’intégration du réseau local dans un réseau national dédié aux humanités numériques, l’IRIHS en collaboration avec l’ERIAC a permis à deux ingénieurs SHS de participer à une action nationale de formation « Concevoir et exploiter les sources numériques de la recherche en SHS » organisée par la MSH Val de Loire avec le soutien de l’InSHS et de la formation permanente du CNRS et du consortium Cahier.

Deux ingénieur-es associé-es au programme (Raphaëlle Krummeich et Benoît Roux) ont participé à la formation du 9 au 13 octobre 2017. Une réunion de restitution de l’action nationale de formation sera proposée. Le réseau professionnel constitué permet aussi d’envisager d’inviter des intervenant-es ou participant-es de l’ANF lors de journées d’études dédiées.

Afin de favoriser le dialogue local entre les disciplines et la culture matérielle des champs disciplinaires investis par le programme, l’IRIHS a participé à plusieurs journées d’études : GrHis (Ducange), 2 CUREJ (Cazals) et plusieurs réunions de travail, avec le LITIS, sur des éléments du corpus Fibia. Un séminaire dédié aux humanités numériques a donné lieu à une première journée d’étude transnationale centrée sur la question de l’éditorialisation.

En ce qui concerne le recrutement de l’ingénieur d’étude prévu sur ce WP, nous avons fait appel à M. Alexandre BURNETT qui a travaillé pendant 4 ans sur le projet INTERREG IVa DocExplore et qui a développé la suite logicielle DocExplore. Il a toutes les compétences nécessaires pour développer les extensions des capacités d’affichage du logiciel au web et aux appareils mobiles de type tablettes. Il assure aussi le développement de nouvelles fonctionnalités pour le CMS Omeka.

Voir « recrutement-ige-irihs-2017.pdf » et « CVAlexanderBurnett.pdf »

  1. Livrables attendus

WP 4.1 : Recherche d’objets graphiques dans des images de documents (2016).

Livrable : Un logiciel Web destiné à la valorisation de collections numérisées riches en images.

Le code d’évaluation en ligne des tâches de recherche d’images et de localisation des objets graphiques dans la base d’images annotées est disponible sur: http://spotting.univ-rouen.fr

WP 4.2 : Outils numériques pour l’interprétation des œuvres (2017)

Livrable : Démonstrateur web.

Le logiciel DocExplore est téléchargeable à l’adresse : http://www.docexplore.eu

WP 4.3 : Usages de Scan on demand par les Humanités Numériques (2018)

Livrable : – Des Editions numériques augmentées des corpus sélectionnés, accessibles sur le web – Retour d’expérience de Scan on demand.