CPSL Machine Translation Lucía Guerrero

Le côté humain de la traduction automatique, rétroaction qualitative pour l’évaluation de la TA (1)

Lorsqu’on entend parler de TA, il est assez rare que l’on évoque les post-éditeurs et ce qui pourrait être fait pour perfectionner et améliorer les aspects souvent négatifs des tâches de traduction automatique avec post-édition (TA-PE). Faisant appel à sa propre expérience, Lucía Guerrero,  Gestionnaire de projet de traduction et de localisation chez CPSL, nous livre quelques réflexions utiles sur l’amélioration de l’expérience de travail des post-éditeurs.  Les éléments essentiels du succès semblent être les suivants:

  1. Instaurer un climat de confiance en établissant une rémunération transparente et juste et une communication directe sur le travail
  2. Développer des moyens permettant d’impliquer les post-éditeurs dans le perfectionnement du moteur de TA et l’amélioration du processus
  3. Démontrer que le cycle de rétroaction améliore de fait l’expérience de travail de façon permanente

CPSL Machine Translation

La post-édition est devenue monnaie courante lors de l’utilisation de la TA. Selon Common Sense Advisory (2016), plus de 80 % des PSL proposent des services de TA-PE (traduction automatique avec post-édition), et l’une des principales conclusions d’une étude présentée par Memsource lors de la conférence 2017 de l’European Association for Machine Translation (EAMT) indique que moins de 10 % des TA effectuées dans Memsource Cloud n’ont pas été modifiées. S’il est vrai que la plupart des contenus sont traduits automatiquement et sans post-édition (c’est ce que l’on voit tous les jours sur eBay, Amazon ou Airbnb, pour ne citer que quelques exemples), la post-édition RBMT (Rule-Based MT ou TA basée sur des règles), SMT (Statistical Machine Translation ou traduction automatique statistique) ou NMT (Neural Machine Translation ou traduction automatique neuronale), est toujours nécessaire pour améliorer la TA brute obtenue.

Méthodes d’évaluation quantitatives : un tableau partiel

Même s’il est avéré que ces données sont essentielles, les linguistes sont souvent exclus du processus de TA et ne participent qu’à la tâche de post-édition, sans interaction « pendant le processus ». L’évaluation humaine est toujours considérée « coûteuse, longue et emprunte de subjectivité ». Comparée aux outils de qualimétrie comme BLEU ou WER – qui sont indubitablement moins chers et plus rapides –, l’annotation d’erreurs prend beaucoup de temps. Ces outils fournissent des données quantitatives généralement obtenues en comparant automatiquement la TA brute à une traduction de référence, mais l’évaluation du post-éditeur n’est pratiquement jamais prise en compte. Ne devrait-elle pas être plus importante puisque le rôle du post-éditeur est là pour rester ?

Même si les machines sont plus efficaces que nous pour détecter des différences, les humains sont plus à même d’évaluer les phénomènes linguistiques, de les catégoriser et de les analyser de façon détaillée.

L’approche de CPSL consiste à impliquer les post-éditeurs au long des trois étapes du processus de TA :

  • Tester un moteur de TA dans un nouveau domaine ou une nouvelle combinaison de langues
  • Évaluer régulièrement un moteur de TA existant
  • Créer/mettre à jour des consignes de post-édition

Certaines entreprises utilisent l’échelle de Likert pour mesurer l’évaluation humaine. Cette méthode consiste à demander à des utilisateurs – usagers plutôt que linguistes – d’évaluer un par un des segments bruts traduits automatiquement en fonction de critères tels que la pertinence (le message source a-t-il été transmis dans la traduction ?) ou la fluidité (l’intonation est-elle naturelle pour un locuteur dont la langue cible est langue maternelle ?).

À des fins d’évaluation, il nous semble plus utile de demander au post-éditeur d’introduire ses commentaires dans un formulaire, en corrélant des informations telles que le segment source, la TA brute et le segment post-édité, le type et la gravité des erreurs rencontrées, ainsi que leurs commentaires personnels.

Transformer les mauvaises expériences en travail gratifiant

Lorsque je gère un projet basé sur la TA, l’un des problèmes récurrents auxquels je dois souvent faire face, c’est la réticence de certains traducteurs à travailler avec des fichiers traduits automatiquement suite à des expériences de post-édition négatives. J’ai entendu beaucoup d’histoires de post-éditeurs payés en fonction d’une distance d’édition calculée à partir d’un test qui n’avait rien à voir avec la réalité, ou de post-éditeurs auxquels on ne réclamait jamais l’évaluation de la traduction automatique brute. On leur demandait juste d’envoyer les fichiers post-édités et, parfois, le temps qu’ils avaient mis, mais uniquement à des fins de facturation. L’un de nos traducteurs habituels m’a même dit qu’il avait reçu des fichiers traduits automatiquement qui étaient plus mauvais qu’une traduction Google Translates (la traduction neuronale n’existait pas encore). Le point commun entre tous ces récits, c’est que les post-éditeurs sont rarement impliqués dans le processus d’amélioration et d’évaluation du système. La post-édition peut donc vite devenir une expérience aliénante que personne ne souhaite renouveler.

 

CPSL - Post Editor Feeback Form
Post Editor Feeback Form

 

Pour éviter d’en arriver là, nous avons décidé de créer notre propre système de rétroaction qui consiste en un formulaire permettant aux post-éditeurs d’évaluer et de classer la gravité des erreurs, mais aussi de les hiérarchiser. Par exemple, il a été demandé aux post-éditeurs d’accorder une priorité absolue aux erreurs de mise en majuscule des mois et des jours en espagnol, d’ordre des mots en anglais, de ponctuation en français et autres erreurs du même type. Par ailleurs, les éditeurs de logiciels de traduction automatique ont été invités à résoudre ces problèmes dans les meilleurs délais. Les documents d’évaluation peuvent être plus ou moins complexes en fonction des besoins. Ils peuvent être tout aussi détaillés que le modèle DQF (Dynamic Quality Framework, ou cadre qualitatif dynamique) ou consister en une simple liste recueillant les principales erreurs accompagnées d’un exemple.

(Cela va continuer…)

S´inscrire aux actualités de CPSL