Translatoscope, aligner et ouvrir des traductions du théâtre grec
Le projet Translatoscope est porté par Malika Bastin-Hammou, professeure en langue et littérature grecques au laboratoire Litt&Arts. Ce projet vise à collecter et comparer des traductions de pièces de théâtre grec antique pour analyser l’évolution des pratiques de traduction. La collaboration avec GATES a donné lieu à un outil de traitement des données des pièces de théâtre ; la réalisation d’un site web permettant d’explorer ces données ; une documentation détaillée afin que le traitement puisse se faire en autonomie par l’équipe projet ; et enfin l’ouverture des données dans l’entrepôt Nakala.
Les données déjà présentes
Avant la collaboration avec GATES, le laboratoire Litt&Arts avait déjà collecté et édité plusieurs pièces de théâtre au format TEI, un format numérique couramment utilisé en humanités numériques qui permet de conserver les informations textuelles du format papier, garantir la compatibilité des textes, et faciliter leur conversion entre supports. Les traductions des pièces de théâtre ont été récupérées au format PDF puis transcrites au format TEI à l’aide des technologies OCR, de scripts de re-structuration, de corrections manuelles et d’un schéma de données adapté au projet.
Extrait au format TEI de la pièce Ploutos traduite par Guy Alexis Lobineau, fin XVIIe siècle.
Le cœur du projet Translatoscope se trouve dans les variations présentes entre les différentes traductions d’une même pièce de théâtre. Le premier objectif de la collaboration était ainsi d’aligner les différentes traductions à partir d’un texte de référence.
Aligner les traductions d’une pièce de théâtre
Au fil des siècles, les pièces de théâtre grec antique ont été traduites de nombreuses fois, ce qui a produit d’importantes variations. D’une traduction à l’autre, certaines répliques peuvent disparaître, d’autres être ajoutées, déplacées, prononcées par un autre personnage, etc.
Problème d’alignement dans la traduction de pièces de théâtre.
Aligner des traductions, c’est décrire l’ensemble les variations présentes par rapport à un texte de référence, de sorte à pouvoir les exploiter aisément par la suite.
L’outil d’alignement développé
Il se compose d’un ensemble de scripts en python mis à disposition sur la forge gricad-Gitlab. Les scripts sont réalisés dans des notebooks Jupyter et l’alignement se fait à l’aide du tableur LibreOffice Calc.
L’outil a été conçu dans l’optique qu’il soit utilisable par des néophytes en programmation. Le but de la collaboration était que des stagiaires en littérature puisse poursuivre les alignements en autonomie, une fois la collaboration avec GATES terminée.
L’utilisation de l’outil se fait en trois étapes, chacune correspond à un jupyter notebook simple à utiliser :
- première étape : transformation des données d’une pièce de théâtre en format TEI (.xml) vers un format tableur (.xlsx)
- deuxième étape : utilisation d’un guide d’alignement pour aligner le texte à l’aide du logiciel LibreOffice Calc
- troisième étape : transformation des données en format tableur (.xlsx) vers le format JSON pour être intégrées dans le site web
La deuxième étape est la seule qui requiert une véritable réflexion de la part de la personne qui utilise le guide d’alignement. Ce guide est un ensemble de manipulations à réaliser dans LibreOffice Calc, qui permettent de décrire les variations présentes entre les pièces de théâtre. Afin d’être applicable en autonomie, le guide a fait l’objet d’une documentation fine doublée de vidéos explicatives.
Visuel d’une pièce à aligner dans LibreOffice Calc.
Une fois terminé, le texte aligné est transformé au format JSON afin d’être intégré dans le site web.
Le site web
Il est hébergé et déployé sur la forge de l’université Gitlab : https://elan.gricad-pages.univ-grenoble-alpes.fr/translatoscope/. Cette solution simplifie la gestion du site en éliminant le besoin d’un serveur et en rendant les modifications plus faciles à apporter. Le site utilise Bootstrap 5 pour le rendu visuel et JavaScript pour gérer les fonctionnalités de la page Alignements.
La page Alignements permet de visualiser et parcourir facilement les différents textes grâce à un algorithme qui affiche automatiquement les répliques correspondantes dans les autres textes. Le type de variations est indiqué à l’aide d’un code couleur, comme l’illustre la capture ci-dessous.
Capture de la page « Alignements » permettant de visualiser des variations entre traduction. Bleu : regroupement de différentes répliques en une seule ; Orange : changement de locuteur ; Violet : une réplique répartie à plusieurs locuteurs.
En plus de servir d’outil de travail pour faciliter l’étude des traductions théâtrales, le site web permet d’exposer les données de certains textes édités par le laboratoire.
Ouverture des données
Dans le cadre de la Science Ouverte et avec l’appui de la Cellule Data Grenoble Alpes (CDGA), les données au format TEI des pièces de théâtre ont été partagées dans l’entrepôt Nakala. Afin de faciliter la réutilisation et la découvrabilité, des métadonnées fines ont été ajoutées pour chacun des dépôts avec la Licence Ouverte 2.0. Une collection au nom du projet a été créée pour regrouper les données du projet : nakala.fr/collection/10.34847/nkl.798c6967.
La collection Translatoscope sur Nakala : nakala.fr/collection/10.34847/nkl.798c6967
L’ingénierie déployée par GATES dans le cadre du projet Translatoscope se situe ainsi dans plusieurs étapes du cycle de vie des données : traitement des données, à l’aide de l’outil d’alignement ; exposition des données via le site web réalisé sur mesure ; ouverture des données dans l’entrepôt Nakala. La documentation fine et les vidéos réalisées permettent aux membres du projet de poursuivre le traitement et l’exposition des données. L’utilisation des Jupyter notebook et le maniement de différents formats (JSON, TEI, XSLX) permet d’accroître l’acculturation aux données (« data litteracy ») des membres du projet.
Beau-Reder, Joseph (2024). Translatoscope, aligner et ouvrir des traductions du théâtre grec. Blog GATES Data SHS. Université Grenoble Alpes.
Les données sont disponibles sur l’entrepôt Nakala nakala.fr/collection/10.34847/nkl.798c6967 et les scripts réalisés sur gricad-gitlab.