Corpus - Corpus, données et outils de la recherche en sciences humaines et sociales

Recherche en ontologie, Descripteurs d'images, Analyse des formes et lettres des écritures médiévales multilingues – ORIFLAMMS

Résumé de soumission

Le projet ORIFLAMMS (Ontology Research, Image Features, Letterform Analysis on Multilingual Medieval Scripts) rassemble trois laboratoires SHS, trois laboratoires STIC et une société industrielle pour étudier les écritures du Moyen Âge et le multilinguisme médiéval dans une approche interdisciplinaire et novatrice.
À la rencontre d’enjeux épistémologiques, scientifiques, technologiques, industriels et sociétaux, ORIFLAMMS analyse l’évolution des systèmes et formes graphiques des écritures d’un temps long (le Moyen Âge) selon leur contexte de production (écritures usuelles, diplomatiques ou livresques) et leur langue (latin ou vernaculaire). Il établit une ontologie des formes et une analyse des structures graphiques des écritures pour passer d’une approche linéaire (textuelle) à une approche visuelle (bi- et tridimensionnelle) pour répondre aux interrogations des linguistes, historiens des écritures (paléographes, diplomatistes et épigraphistes) et chercheurs industriels en reconnaissance des formes.
À cette fin, ORIFLAMMS réunira et harmonisera des corpus d’analyses dispersés entre les partenaires et les augmentera de façon à créer un Corpus de référence, couvrant la diversité des écritures médiévales : des livres manuscrits aux livres imprimés, des écritures informes aux inscriptions d’apparat, des temps carolingiens à la Renaissance, des livres de théologie et de liturgie aux registres et livres de compte. Ce Corpus de référence, unique en son genre par son ampleur et sa qualité, sera d’accès libre et réunira les images des artefacts médiévaux ainsi que les textes non seulement transcrits, mais analysés graphiquement (transcription allographétique) et alignés (chaque mot aura des métadonnées permettant de le situer sur l’image) dans un format interopérable (XML-TEI) favorisant sa pérennité et sa réutilisation.
Ce Corpus permettra d’établir un véritable dictionnaire des formes écrites au Moyen Âge. Pour y parvenir et changer l’échelle de travail des humanités numériques dans ce domaine, ORIFLAMMS propose de développer des outils d’analyse d’image innovants : outils d’alignement et de TAO (transcription assistée par ordinateur) adaptés aux écritures médiévales. Ce logiciel sera développé en open source et documenté. Reconnaissant l’enjeu de l’adoption des nouveaux outils et de la charge qu’impose le traitement de masses des données, ce logiciel sera conçu avec les utilisateurs finaux (chercheurs des SHS) et en partenariat avec une société industrielle pour assurer les meilleures utilisabilité et ergonomie.
Cet outil innovant ne sert pas seulement à produire des données, mais participe aussi à leur exploitation. ORIFLAMMS conçoit une méthode nouvelle d’étude de l’écriture : l’analyse de la variabilité graphique. Celle-ci sera abordée par les outils d’analyse d’image sur le plan bidimensionnel et par les outils de linguistique de corpus pour la variabilité des systèmes graphiques latins et vernaculaires, en lien avec une analyse morpho-syntaxique. Les logiciels utilisés en linguistique de corpus sont open source et seront développés et documentés de même dans ce projet.
ORIFLAMMS propose un Corpus de référence, constitué d’images et de textes alignés et analysés graphiquement, couvrant les espaces et les lieux de la culture médiévale, dans des formats interopérables. Il propose des outils innovants et open source pour l’analyse graphique et l’analyse textuelle. Il permettra aux historiens et linguistes de comprendre les évolutions de l’écriture dans l’environnement multilingue du Moyen Âge ; il offrira à l’industrie des technologies et une heuristique nouvelle pour l’analyse des écritures manuscrites et leur utilisation dans un contexte numérique ; il enrichira l’approche des processus scripturaux des anthropologues, pédagogues et neurocognitivistes..

Coordination du projet

Dominique STUTZMANN (Délégation Régionale Ouest et Nord)

L'auteur de ce résumé est le coordinateur du projet, qui est responsable du contenu de ce résumé. L'ANR décline par conséquent toute responsabilité quant à son contenu.

Partenaire

INSA DE LYON - LIRIS Institut National des Sciences Appliquées de Lyon Laboratoire d'Informatique en Images et Systèmes d'Information (LIRIS)
A2iA A2iA : Analyse d'Image & Intelligence Artificielle
ENC - EA3624 École Nationale des Chartes - Centre Jean Mabillon
LIPADE-EA2517 Laboratoire d'Informatique Paris Descartes (LIPADE)
IRHT Délégation Régionale Ouest et Nord
CESCM - UMR7302 Centre d'études supérieures de civilisation médiévale (CESCM)
ICAR - UMR5191 Interactions, Corpus, Apprentissage, Représentations (ICAR)
IRHT - UPR841 Institut de Recherche et d'Histoire des Textes

Aide de l'ANR 240 993 euros
Début et durée du projet scientifique : janvier 2013 - 36 Mois

Liens utiles

Explorez notre base de projets financés

 

 

L’ANR met à disposition ses jeux de données sur les projets, cliquez ici pour en savoir plus.

Inscrivez-vous à notre newsletter
pour recevoir nos actualités
S'inscrire à notre newsletter