Descriptif
Ce projet ACR vise à développer de nouvelles méthodes d'alignement automatique des traductions et à créer un corpus consultable sur une plateforme en ligne, pour proposer au grand public un accès plus facile aux traductions françaises des *Kinder- und Hausmärchen* (KHM), ainsi que des outils exploitables par les chercheurs et éditeurs. Il réunit des spécialistes des frères Grimm, de la traduction, du traitement automatique des langues (TAL) et de stylistique, qui travailleront sur les dix contes les plus traduits au XIXe siècle.
Les traductions des KHM suscitent un intérêt croissant, mais leur analyse comparée reste malaisée: textes difficiles d'accès, tableaux Word peu maniables... La nécessité de nouveaux outils s'est imposée aux chercheurs et à l'extérieur de l'université, parmi les éditeurs, les bibliothécaires ou les acteurs culturels. Les avancées récentes en apprentissage profond permettent de développer des méthodes pour le multi-alignement monolingue et multilingue, qui contribueront à révéler tout le potentiel d'un corpus extraordinaire, patrimoine culturel mondial pourtant assez mal connu et souvent considéré comme relevant de la littérature de jeunesse seule.
Ce projet vise la création d'une plateforme permettant la comparaison des traductions de dix contes représentatifs ("Hänsel et Gretel", "Blanche-Neige", "Les musiciens de Brême"...). Dérivée de celle de Variance (www.variance.ch) la plateforme aura un fonctionnement simple: lors de la sélection d'un conte, toutes ses traductions (ou une sélection faite par l'utilisateur) apparaitront en colonnes, alignées sur la phrase sélectionnée dans le texte original ou dans l'une des traductions. Les comparaisons seront plus dynamiques que dans un tableau Word.
Ce projet innovant et interdisciplinaire propose une nouvelle manière de comparer les traductions, fondée sur les avancées récentes dans les humanités numériques. Des outils d'alignement existent pour d'autres types de discours ou de corpus (Odysseus, textes de l'UE), mais toutes les potentialités de ces approches n'ont pas encore été exploitées et d'autres outils doivent être élaborés. Associant des chercheurs de l'UGA et de l'UNIL, le projet consistera à créer conjointement les outils adéquats pour le développement et la publication de ce corpus. Les collaborations se prolongeront avec des partenaires non universitaires: musées, écoles ou réseaux de conteurs de la région.
Nous espérons que la bonne réception de ce projet débouchera sur d'autres financements permettant d'enrichir la plateforme en y ajoutant les autres contes du recueil et en développant des outils de recherche et d'analyse complémentaires. La plateforme pourrait également accueillir des traductions dans d'autres langues, au gré des collaborations internationales. Plusieurs collègues ont déjà manifesté leur souhait de participer à une phase ultérieure du projet.
Activités
Les principales activités consisteront en la définition du corpus (choix des contes, recensement et sélection des traductions), la numérisation à partir des sources disponibles au format papier (bibliothèques) ou numérique (Gallica, Projet Gutenberg, WikiSource, …), le nettoyage et le balisage en XML-TEI, puis l'application de différentes chaines de traitement afin d'obtenir des annotations morphosyntaxiques et un alignement de qualité (manuellement vérifié au grain des sections textuelles).
Outre la publication sous différents formats conformes aux standards en vigueur, le corpus sera consultable en version grand public sur une plateforme dérivée de Variance (www.variance.ch), pour laquelle Cyrille François a publié une édition des contes de Perrault.
Le projet permettra aussi de tester de nouvelles méthodes d'alignement tirant parti des avancées récentes en apprentissage profond, utilisant des représentations vectorielles multilingues (*embeddings* de phrases et de mots) permettant d'aborder dans une perspective unifiée l'alignement monolingue (de différentes versions) et multilingue (entre un original et ses traductions).
Enfin, le projet contribuera à former les étudiants à la recherche en les intégrant aux différentes étapes de l'élaboration du corpus et de ses grilles d'analyse, et à consolider notre réseau interdisciplinaire et inter-laboratoires en tissant des liens plus étroits entre chercheurs et étudiants des deux universités.