Plusieurs langues (bien choisies) valent mieux qu’une : traduction statistique multi-source par renforcement lexical

Josep Maria Crego, Aurélien Max, François Yvon


Abstract
Les systèmes de traduction statistiques intègrent différents types de modèles dont les prédictions sont combinées, lors du décodage, afin de produire les meilleures traductions possibles. Traduire correctement des mots polysémiques, comme, par exemple, le mot avocat du français vers l’anglais (lawyer ou avocado), requiert l’utilisation de modèles supplémentaires, dont l’estimation et l’intégration s’avèrent complexes. Une alternative consiste à tirer parti de l’observation selon laquelle les ambiguïtés liées à la polysémie ne sont pas les mêmes selon les langues source considérées. Si l’on dispose, par exemple, d’une traduction vers l’espagnol dans laquelle avocat a été traduit par aguacate, alors la traduction de ce mot vers l’anglais n’est plus ambiguë. Ainsi, la connaissance d’une traduction français!espagnol permet de renforcer la sélection de la traduction avocado pour le système français!anglais. Dans cet article, nous proposons d’utiliser des documents en plusieurs langues pour renforcer les choix lexicaux effectués par un système de traduction automatique. En particulier, nous montrons une amélioration des performances sur plusieurs métriques lorsque les traductions auxiliaires utilisées sont obtenues manuellement.
Anthology ID:
2009.jeptalnrecital-court.28
Volume:
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2009
Address:
Senlis, France
Editors:
Adeline Nazarenko, Thierry Poibeau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
253–262
Language:
French
URL:
https://aclanthology.org/2009.jeptalnrecital-court.28
DOI:
Bibkey:
Cite (ACL):
Josep Maria Crego, Aurélien Max, and François Yvon. 2009. Plusieurs langues (bien choisies) valent mieux qu’une : traduction statistique multi-source par renforcement lexical. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 253–262, Senlis, France. ATALA.
Cite (Informal):
Plusieurs langues (bien choisies) valent mieux qu’une : traduction statistique multi-source par renforcement lexical (Crego et al., JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:
https://aclanthology.org/2009.jeptalnrecital-court.28.pdf