Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe (This article presents a new system that automatically translates images of Arabic documents)

Kamel Bouzidi, Zied Elloumi, Laurent Besacier, Benjamin Lecouteux, Mohamed-Faouzi Benzeghiba


Abstract
Cet article présente un système original de traduction de documents numérisés en arabe. Deux modules sont cascadés : un système de reconnaissance optique de caractères (OCR) en arabe et un système de traduction automatique (TA) arabe-français. Le couplage OCR-TA a été peu abordé dans la littérature et l’originalité de cette étude consiste à proposer un couplage étroit entre OCR et TA ainsi qu’un traitement spécifique des mots hors vocabulaire (MHV) engendrés par les erreurs d’OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amélioration significative des performances de traduction. Les expérimentations sont réalisés sur un corpus de journaux numérisés en arabe et permettent d’obtenir des améliorations en score BLEU de 3,73 et 5,5 sur les corpus de développement et de test respectivement.
Anthology ID:
2017.jeptalnrecital-long.5
Volume:
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs
Month:
6
Year:
2017
Address:
Orléans, France
Editors:
Iris Eshkol-Taravella, Jean-Yves Antoine
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
63–76
Language:
French
URL:
https://aclanthology.org/2017.jeptalnrecital-long.5
DOI:
Bibkey:
Cite (ACL):
Kamel Bouzidi, Zied Elloumi, Laurent Besacier, Benjamin Lecouteux, and Mohamed-Faouzi Benzeghiba. 2017. Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe (This article presents a new system that automatically translates images of Arabic documents). In Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs, pages 63–76, Orléans, France. ATALA.
Cite (Informal):
Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe (This article presents a new system that automatically translates images of Arabic documents) (Bouzidi et al., JEP/TALN/RECITAL 2017)
Copy Citation:
PDF:
https://aclanthology.org/2017.jeptalnrecital-long.5.pdf