Avril 2024
Le parcours de l’édition savante numérique : de l’HTR à l’infrastructure de recherche
École des chartes, 65 rue de Richelieu
16h – 18h
L’objet de la recherche sera le développement de méthodes pour créer un prototype d’édition numérique annotée linguistiquement et stylistiquement d’extraits de deux manuscrits : une traduction italienne et une traduction française de l’Ars amandi d’Ovide.
Quatre aspects du processus éditorial seront considérés : la correction du texte acquis, l’annotation linguistique et stylistique, l’exploitation des annotations pour le contrôle de cohérence et la gestion des données selon les principes FAIR. Par conséquence, quatre séminaires de 2h00 par semaine seront donnés sur les thèmes suivants :
- Acquisition : Ressources linguistiques pour la correction semi-automatique de l’HTR ;
- Annotation : Langages Spécifique au Domaine (DSLs) de la philologie pour annoter des traductions anciennes ;
- Exploitation : Le cercle herméneutique en action : la boucle continue entre l’édition et l’interrogation des ressources textuelles ;
- FAIRification : Digital Scholarly Editions, Corpora et Infrastructures de Recherche.
En plus de la participation aux séminaires, les étudiant-e-s, organisé-e-s en groupes, devront préparer un prototype d’édition numérique savante qui démontre leur capacité à appliquer les méthodes apprises pendant les séminaires. Le chercheur se tiendra à leur disposition pour leur fournir, si nécessaire, des éclaircissements et pour discuter du développement du projet.
PROGRAMME
Mercredi 3 avril 2024 | 16h – 18h | Salle Delisle
1. Acquisition : Ressources linguistiques pour la correction semi-automatique de l’HTR
Le premier séminaire couvre les techniques de détection et de correction semi-automatique des erreurs HTR. L’alignement et la sélection des résultats de l’application de plusieurs modèles HTR seront illustrés. Les ressources linguistiques numériques disponibles, utiles pour évaluer la probabilité d’une erreur HTR, seront décrites. L’utilisation de ressources polyglottes sera également discutée : en effet, pour les textes traduits, une classe d’erreurs HTR peut être auto-corrigée par l’alignement avec le texte (dans une édition numérique donnée) de la langue originale. Une attention particulière sera toutefois accordée aux cas où les erreurs apparentes sont dues à des variantes probables dans le texte de la langue originale.
Mercredi 10 avril 2024 | 16h – 18h | Salle Delisle
2. Annotation : Langages Spécifique au Domaine (DSLs) de la philologie pour annoter des traductions anciennes
Le deuxième séminaire porte sur l’annotation de textes à l’aide d’un langage spécifique au domaine (Domain-Specific Langage, abrégé DSL) de la philologie, dont la grammaire formelle sera précisée en collaboration avec les chercheurs de l’unité d’accueil et les étudiants eux-mêmes. Un DSL optimise la représentation des données et des procédures en termes de concision, de familiarité, de lisibilité, de cohérence et de complétude (tous ces aspects seront discutés en détail). Le DSL facilite l’annotation séparée (stand-off annotation) de grandes quantités de données complexes et peut être converti en formats standard tels que XML-TEI, OWL, etc. Les niveaux d’analyse (morpho-syntaxique, lexico-sémantique, rhétorique, etc.) représentés par le DSL seront discutés.
Mercredi 17 avril 2024 | 16h – 18h | Salle Delisle
3. Exploitation : Le cercle herméneutique en action : la boucle continue entre l’édition et l’interrogation des ressources textuelles
Le troisième séminaire réfléchit sur la circularité entre la compréhension de la partie (micro-annotation de mots ou de petits blocs de texte) et la compréhension du tout (identification des lieux parallèles : relations entre les parties annotées ou relations avec d’autres textes annotés). Une approche incrémentale est proposée, dans laquelle les annotations sont indexées et consultables au fur et à mesure de leur création. De cette façon, elles peuvent être modifiées en bloc pour maintenir la cohérence entre les parties : un même phénomène ne doit jamais être annoté de différentes manières et des phénomènes différents ne doivent pas être annotés de la même manière. Concrètement, on montre la création et l’utilisation d’un simple moteur de recherche incrémental implémenté en xquery au sein d’eXist-db.
Mercredi 24 avril 2024 | 16h – 18h | Salle Coyecque
4. FAIRification : Digital Scholarly Editions, Corpora et Infrastructures de Recherche
Le dernier séminaire est consacré aux principes FAIR pour la gestion et l’intendance des données scientifiques, qui doivent être trouvables (Findable), accessibles (Accessible), interopérables (Interoperable) et réutilisables (Reusable). L’infrastructure de recherche européenne pour les ressources linguistiques CLARIN est prise comme cas d’étude et il sera expliqué comment utiliser les ressources existantes et en créer de nouvelles. Enfin, le concept de corpus textuel et son articulation dans l’infrastructure de recherche sont expliqués.