Estimation d’un modèle de traduction à partir d’alignements mot-à-mot non-déterministes (Estimating a translation model from non-deterministic word-to-word alignments)

Nadi Tomeh, Alexandre Allauzen, François Yvon


Abstract
Dans les systèmes de traduction statistique à base de segments, le modèle de traduction est estimé à partir d’alignements mot-à-mot grâce à des heuristiques d’extraction et de valuation. Bien que ces alignements mot-à-mot soient construits par des modèles probabilistes, les processus d’extraction et de valuation utilisent ces modèles en faisant l’hypothèse que ces alignements sont déterministes. Dans cet article, nous proposons de lever cette hypothèse en considérant l’ensemble de la matrice d’alignement, d’une paire de phrases, chaque association étant valuée par sa probabilité. En comparaison avec les travaux antérieurs, nous montrons qu’en utilisant un modèle exponentiel pour estimer de manière discriminante ces probabilités, il est possible d’obtenir des améliorations significatives des performances de traduction. Ces améliorations sont mesurées à l’aide de la métrique BLEU sur la tâche de traduction de l’arabe vers l’anglais de l’évaluation NIST MT’09, en considérant deux types de conditions selon la taille du corpus de données parallèles utilisées.
Anthology ID:
2011.jeptalnrecital-long.37
Volume:
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2011
Address:
Montpellier, France
Editors:
Mathieu Lafourcade, Violaine Prince
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
424–435
Language:
French
URL:
https://aclanthology.org/2011.jeptalnrecital-long.37
DOI:
Bibkey:
Cite (ACL):
Nadi Tomeh, Alexandre Allauzen, and François Yvon. 2011. Estimation d’un modèle de traduction à partir d’alignements mot-à-mot non-déterministes (Estimating a translation model from non-deterministic word-to-word alignments). In Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 424–435, Montpellier, France. ATALA.
Cite (Informal):
Estimation d’un modèle de traduction à partir d’alignements mot-à-mot non-déterministes (Estimating a translation model from non-deterministic word-to-word alignments) (Tomeh et al., JEP/TALN/RECITAL 2011)
Copy Citation:
PDF:
https://aclanthology.org/2011.jeptalnrecital-long.37.pdf