WP3 : Accès personnalisé aux contenus

1. Objectifs

Le WP3 s’intéresse à la prise en compte des utilisateurs d’une plateforme d’accès à un corpus numérique et de leurs modes d’utilisation de manière à enrichir le corpus de documents et les mécanismes de navigation et d’édition dans une approche Web 2.0.

Un partenariat avec l’IDIT (l’Institut du Droit International des Transports) a permis l’accès et la prise en mains du site internet de l’association, ainsi qu’à la base des documents juridiques qu’il intègre, permettant en plus l’analyse du comportement de ses utilisateurs lors de leurs démarches de recherche documentaire.

Trois tâches sont prévues dans le WP3 :

  • Tâche WP 3.1 : Edition d’annotations à un corpus numérique. Le démonstrateur PlaIDIT dont le premier prototype a été développé dans le cadre de PlaIR 2.0 pour la navigation dans la base de données IDIT en droit du transport sera étendu dans cette tâche par la mise en place d’un mécanisme d’ajout d’annotations aux documents d’un corpus numérique. Cette extension nécessite de comprendre la structure linguistique des arrêts traités, d’adapter le modèle de description du corpus pour que les annotations puissent être associées aux documents et aux requêtes, puis de développer dans PlaIDIT des outils d’ajout et d’édition d’annotations.
  • Tâche WP 3.2 : Modèle de confiance pour l’édition. Nous nous intéresserons dans cette tâche de PlaIR 2.018 au développement d’outils de gestion de la confiance dans le but    d’évaluer la qualité et la fiabilité des contributions des utilisateurs. Nous nous intéresserons à la définition d’une métrique pour l’évaluation de la qualité d’une production (ici, une annotation dans PlaIDIT) et de mécanismes d’évaluation semi-automatique. Une étude des modèles multi-agents de gestion de la confiance sera réalisée pour utiliser le plus adapté à une édition collaborative.
  • Tâche WP 3.3 : Mise en œuvre de PlaIDIT à l’IDIT. Il s’agit de déployer le prototype PlaIDIT au sein de l’IDIT en analysant le retour d’expérience auprès des utilisateurs finaux. Ce workpackage comprendra donc des études de cas menées par l’IDIT à l’aide de la plateforme PlaIDIT, ainsi qu’une évaluation de l’apport de la personnalisation de la recherche d’information, par rapport à la technologie actuelle de recherche en base de données.

2 Définition des priorités

Les travaux prévus dans chacune des tâches du WP 3 ont été planifiés de la manière suivante :

  • Tâche WP 3.1 :
    • Définition d’un modèle d’annotations incorporé à une plateforme de         recherche documentaire (terminé en juillet 2016)
    • Construction   d’un modèle de description du corpus en vue d’une implémentation dans la base de données et de trois modèles de scénario modal en fonction des trois types de juridiction représentées dans la base de données de l’IDIT : cour d’appel, cour de cassation, tribunaux de commerce (terminé en décembre 2017)
    • Réalisation d’études pour intégrer un module de gestion d’annotations  (terminé en octobre 2018)
    • Mis en œuvre de l’intégration du module de gestion d’annotations (en cours, jusqu’à décembre 2018)
  • Tâche WP 3.2 :
    • Etude et définition d’un modèle de confiance centré sur le comportement des utilisateurs (terminé en octobre 2018)
    • Intégration du module de gestion de confiance dans les processus de recherche d’information (en cours, jusqu’à février 2019)
  • Tâche WP 3.3 :
    • Réalisation d’une première maquette de plateforme de recherche documentaire (terminé en avril 2017)
    • Déploiement du prototype PlaIDIT en connexion avec la base de l’IDIT (terminé en mars 2018)
    • Implémentation du module de gestion d’annotations et de confiance (en cours, jusqu’à mai 2019)
    • Expérimentations sur un panel d’utilisateurs (prévu entre avril et juin 2019)

3. Premières réalisations

Les premières réalisations au sein du WP 3 ont concerné la tâche 3.1 et consistent en une étude de la structuration argumentative des arrêts juridiques pour faciliter l’interprétation et l’annotation des textes et en modèles et outils de recherche documentaire intégrant l’édition et la consultation d’annotation.

Ils ont été essentiellement réalisés par les travaux de thèse de Fadila Taleb et de Zina El Guedria, qui ont bénéficié des allocations doctorales accordées par le Grand Réseaux de Recherche Culture et Société en Normandie et Logistique, Mobilité, Numérique, entre 2015 et 2018.

3.1. Aide à l’interprétation

La première réalisation au sein du WP 3 concerne la valorisation des contenus (full text) des textes de jurisprudence (arrêts des cours d’appel, de cassation et tribunaux de commerce) contenus dans la base de l’IDIT. En effet, l’Institut considère que toutes les informations pouvant être utiles à ses utilisateurs (juristes, assureurs, transporteurs) ne figurent pas dans les résumés des fiches de la base (interprétation à un instant t) mais dans les textes pleins des arrêts (le procès dans son intégralité).

L’objectif est alors d’aider à l’interprétation de ces textes longs pour favoriser leur annotation dans le cadre professionnel.

Pour mener à bien ce travail, nous avions déposé et obtenu le financement d’une thèse régionale (financement régionale par le GRR CSN axe 6 Interdisciplinarité et technologies numériques).

Le travail de thèse de Fadila Taleb (2014-2018) intitulé « Aide à l’interprétation : apport des marqueurs modaux à l’appréhension d’un genre textuel : application au discours juridique » œuvre au rapprochement inédit de deux théories linguistiques complémentaires : l’approche de la modalité, avec la sémantique interprétative.

Le travail de Fadila Taleb a d’abord consisté à mettre en évidence un modèle de description de corpus basé sur la structuration argumentative (syllogisme régressif) afin de cerner des faisceaux de contraintes déterminées linguistiquement.

Ce travail a nécessité une importante recherche bibliographique à l’intersection des trois domaines concernés : la linguistique (sémantique textuelle et modalité), l’informatique (textométrie) et le droit (nouvelle rhétorique).

Depuis septembre 2015 un important travail de préparation de corpus a été mené (arrêts de cour d’appel, de cour de cassation et de tribunaux de commerce figurant dans la base de données de l’Institut du droit international des transports). Cette préparation s’est déroulée en plusieurs étapes : d’abord convertir les fichiers .pdf en un format text. Ensuite et après les avoir nettoyé, il a fallu les segmenter et les baliser en langage XML, pour enfin pouvoir les traiter avec les logiciels textométriques (TXM-Hyperbase)

Sur la base d’une étude textométrique portant sur plusieurs centaines d’arrêts, un scénario modal propre à chaque type d’arrêt a été construit, il corrèle des marqueurs de transformation modale à chaque type de pratique juridique.

Cette étude a été facilitée grâce au développement au LITIS d’un tagger XML spécifique pour étiqueter le contenu des arrêts. Ce travail est un préalable à l’implémentation d’une aide à l’interprétation qui permettra un accès personnalisé aux contenus des arrêts basé sur un modèle d’acquisition de traces d’usages.

3.2. Gestion d’annotations dans une recherche documentaire

L’introduction d’annotations liées aux documents d’une base de données nécessite d’adapter un processus de recherche d’information pour permettre d’ajouter du contenu et de le lier à une portion d’un document, puis d’utiliser ces ajouts pour améliorer la pertinence des documents proposés à un utilisateur.

Zina El Guedria a proposé dans sa thèse [11] un ensemble de modules de personnalisation de la recherche d’information incluant un module lié aux annotations. Ces annotations sont associées à une partie d’un document et à une navigation en cours exprimant la requête en cours. Les annotations comprennent un commentaire qui sera proposé aux futurs lecteurs du document ayant une navigation proche.

L’insertion d’annotations s’apparente à la rédaction de commentaires sur des textes juridiques, pratique existante des professionnels du droit, tout en étendant leur impact grâce aux technologies numériques. La plateforme permet ainsi de relier explicitement le texte saisi à une partie de document et à le contextualiser en fonction de la nature de la recherche documentaire. De cette manière des annotations pourront être proposées comme résultat d’une requête avec une mise en valeur de celles correspond à un même type de recherche.

L’insertion d’annotations remplit également une fonction de retour de pertinence pour le document annoté et la recherche en cours. Le retour de pertinence nourrit un système de recommandation qui enrichira l’indexation des documents en fonction de l’intérêt perçu dans de précédentes navigations.

La modélisation de la plateforme de recherche documentaire et des algorithmes de découverte de documents, de reformulation de requêtes (fonctionnalité à destination d’utilisateurs non experts dans la terminologie de la base documentaire), de recommandations et d’insertion d’annotations ont fait l’objet de plusieurs publications [1, 2, 3, 4]. Une évaluation empirique des algorithmes proposés est en cours sur un jeu de données mis à disposition par une équipe du MIT traçant le comportement d’exploration du web d’un collectif d’utilisateurs ayant à formuler une requête complexe.

Le développement d’un prototype déployé sur la base de l’IDIT a été réalisé, en utilisant des briques logicielles développées précédemment dans le projet PlaIR pour l’indexation automatique dans CISMeF (voir WP 2). Une extension de la plateforme à d’autres corpus documentaires sera considérée (en lien avec le WP4).

Ce prototype a permis l’expérimentation avec des utilisateurs réels des mécanismes d’assistance à la recherche documentaire proposés précédemment. Cette expérimentation a été réalisée avec quelques étudiants en master de droit de l’université de Rouen, afin de faire apprendre au système l’expertise nécessaire à une bonne utilisation de la base documentaire. La seconde partie de l’expérimentation doit avoir lieu courant juin pour montrer l’exploitation de cet apprentissage au profit d’utilisateurs novices.

4. Avancées jusqu’à avril 2018

L’embauche de Filipo Studzinski Perotto en tant que post-doctorant sur 18 mois a été effectué en février 2018, pour la réalisation des tâches 3.2 et 3.3. La participation de Daniel Antelme en tant qu’ingénieur d’études pour le développement de la plateforme (tâches 3.1 et 3.3) pour 6 mois a aussi été mis en place à partir du mois de février 2018. Mustafa Alchaib a participé du projet entre avril et juin 2018 en tant que stagiaire.

Parallèlement à ce travail, une étude de migration du système d’information de l’IDIT vers de nouvelles technologies a été réalisée entre septembre 2016 et février 2017. Cette étude amont permet de rendre celui-ci dynamique et ouvert, et de disposer d’une plateforme logicielle capable d’intégrer les services qui seront développés par la suite (traces utilisateurs, web sémantique, SMA…).

Dans l’objectif de proposer un système d’information structuré pour une meilleure évolution, une mise-à-jour technologique a été nécessaire pour le site web de l’IDIT. La migration du site de PHP5 vers PHP7 a été réalisé par Filipo Perotto et Daniel Antelme, et la nouvelle version est actuellement en phase de validation avant le déploiement et mise en opération.

Le système d’informations de l’IDIT possède une base donnée comportant à la fois les tables CMR (publiques) et des tables comprenant les informations à destinations des adhérents de l’association (privée). La base de données étant en constante évolution dans le temps, par exemple, suite à l’ajout de tables, un travail d’analyse, d’optimisation et de sécurisation des données a été nécessaire. Lors de la migration, une ré-implémentation de certains modules a été réalisée, dans le but d’une amélioration globale du système. L’architecture fonctionnelle a également été modifiée, avec l’ajout, entre autres, des fonctionnalités telles que :

  • la gestion des utilisateurs et des profils
  • la recherche par un formulaire unifié
  • la diffusion et partage de ressources

Un premier prototype intégrant la collecte des traces du comportement des utilisateurs lors de la recherche de documents (à travers l’utilisation de AJAX), ainsi que la possibilité de réaliser des annotations sur les documents est en train d’être développé.

L’utilisation des algorithmes d’apprentissage automatique pour améliorer l’ordonnancement des résultats de recherche est aussi en étude.

5. Avancées jusqu’à octobre 2018

La nouvelle version du site web de l’IDIT a été déployée et sera mise en opération à la fin du mois de novembre 2018. A la suite de cette migration, une amélioration de la performance en termes de temps de réponse après requête est attendue.

Des études sur un meilleur design pour la présentation des résultats de recherche est en train de se réaliser, afin d’ajouter des informations de contexte dans les documents trouvés, autour des mots-clés recherchés par l’utilisateur.

A la suite des travaux réalisés par Daniel Antelme, le système d’annotation « hypotes.is » a été adapté pour pouvoir être intégré au site de l’IDIT, permettant le partage des utilisateurs, le contrôle et la récupération des données des annotations. Ce module devra être opérationnel en décembre 2019.

A la suite des travaux menés par Mustafa Alchaib, un premier module de récolte de traces de navigation utilisateur (tracking) a été développé. Ces traces utilisateur concernent les recherches documentaires, et peuvent détecter, en plus des informations des formulaires de recherche soumis, le temps de chaque recherche, les résultats visualisés par l’utilisateurs, les clicks, le temps passé sur les fiches descriptives des documents, ainsi que d’autres actions réalisés sur les documents, et qui peuvent indiquer des évidences sur la pertinence d’un document à une recherche donnée.

Un des objectifs principaux de cette phase du travail est la proposition d’un moteur de recherche capable de retourner à l’utilisateur des documents pertinents par rapport à la recherche menée par l’utilisateur. Actuellement, tous les documents correspondant aux critères et aux filtres de recherche sont retournés en ordre chronologique. Le travail qui est actuellement en cours vise à combiner des éléments lexiques du document qui indiquent sa pertinence à la requête avec des évidences de pertinence qui peuvent être retrouvés à partir de l’analyse des traces laissées par d’autres utilisateurs lors des requêtes similaires.

L’utilisation des algorithmes tels que les multiarmed bandits (MAB) peut servir à modifier le classement d’un résultat de recherche selon le feedback des utilisateurs. Dans ce contexte, le choix de présenter un document à l’utilisateur comme résultat de recherche correspond à réaliser une action qui peut être récompensée positive ou négativement, si l’utilisateur interagit ou non avec le document proposé. Un article lié à la recherche fondamentale des mécanismes d’apprentissage par renforcement (tels les MAB) a été publié [10].

Filipo Perotto, en collaboration avec Fadila Taleb, a aussi implémenté une méthode automatique de segmentation pour les textes de cour d’appel, basé sur le modèle linguistique développé au préalable, et qui permettra prochainement l’inclusion d’un premier prototype de mise en surbrillance des différentes parties de ces documents lors de leur visualisation par les utilisateurs du site.

L’utilisation d’un mécanisme d’apprentissage automatique pour améliorer le modèle de segmentation à partir des documents analysés a été aussi proposé. Le fruit de ce travail a été décrit dans un article scientifique [12] qui sera soumis en 2019.

Il s’agit d’une architecture multiagent supervisé capable de segmenter automatiquement des documents de texte. Chaque agent dans le système implémente un algorithme de segmentation automatique différent. Des stratégies multiples (domain-specific, supervisé et non-supervisé) peuvent être combinées. Un ensemble de documents déjà segmentés est utilisé pour l’entrainement des algorithmes supervisés, et pour l’évaluation de la précision de tous les agents. La précision de chaque agent détermine son poids quand les différentes solutions sont agrégées. Un corpus de 150 textes segmentés de la base de l’IDIT a été utilisé pour une première expérience.

5 Livrables attendus

Un livrable par tâche du WP 3 est prévu :

  • Livrable WP 3.1 : Module d’édition d’annotations dans PlaIDIT      (prévu à 18 mois)
  • Livrable WP 3.2 : Service de calcul semi-automatique de la qualité d’une annotation et gestion de la confiance entre les utilisateurs (prévu à 30 mois)
  • Livrable WP 3.3 : Adaptation de la recherche d’information dans PlaIDIT au comportement des utilisateurs, basée sur leurs   annotations et leurs traces de navigation (prévu à 36 mois).