Plateformes PlaIR 2.018

1/ Plateforme développée dans le cadre de PlaIR2.018

PIVAN : Plateforme d’Indexation et de Visualisation d’Archives Numérisées

Le démonstrateur PIVAN donne accès à des collections de documents manuscrits transcrits automatiquement en textes électroniques par les algorithmes d’Intelligence Artificielle (Deep Learning) que nous avons développés spécifiquement. Le feuilleteur permet d’accéder conjointement aux facsimile numériques et à leur transcription. Le cas échéant, l’utilisateur peut corriger la transcription réalisée par la machine, pour améliorer le moteur de recherche. Les algorithmes de Deep Learning ont été préalablement entrainés à reconnaître des exemples d’écriture des documents, puis ils ont été utilisés pour reconnaître l’ensemble du corpus : des manuscrits italiens de la Collection Montbret (BMR) ainsi que des manuscrits de droit normand (Bibliothèque de droit Normand David Hoüard), grâce au partenariat entre l’IRIHS et la BMRS.

2/ Plateformes améliorées dans le cadre de PlaIR2.018

HeTOP : HeTOP (Health Terminology/Ontology Portal) inclut les principales terminologies et ontologies de santé. Il contient plus de 2 millions de concepts disponibles dans plusieurs langues à travers plus de 70 terminologies ou ontologies. Cet outil permet de trouver des concepts à partir de leurs termes, et ce, dans plusieurs langues. Il permet d’explorer ces concepts au sein d’une terminologie ou entre terminologies grâce à leurs hiérarchies et aux autres relations sémantiques. Il peut être utilisé pour apprendre, enseigner ou traduire que ce soit via le site internet que via des services web. Enfin, HeTOP offre un accès à des moteurs de recherche les plus puissants (PubMed, LiSSa, LILACS, Doc’CISMeF, etc.) pour obtenir des informations de qualité.

ECMT : Extracteur de Concept Multi-Terminologique

ECMT est un outil d’annotation automatique de textes en français. Il est spécialisé en Santé puisqu’il repose sur la base de données de SOC HeTOP, principalement axée dans le domaine médical. Identifier des concepts d’intérêt dans des textes en langage naturel est une tâche très complexe et fait intervenir plusieurs sous-disciplines (ingénierie des connaissances, traitement automatique du langage naturel…).

Base documentaire de l’IDIT

Pattern Spotting: un démonstrateur et un challenge pour la détection de patterns dans les images de documents médiévaux