Détection d’erreurs dans des transcriptions OCR de documents historiques par réseaux de neurones récurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection)

Thibault Magallon, Frederic Bechet, Benoit Favre


Abstract
Le traitement à posteriori de transcriptions OCR cherche à détecter les erreurs dans les sorties d’OCR pour tenter de les corriger, deux tâches évaluées par la compétition ICDAR-2017 Post-OCR Text Correction. Nous présenterons dans ce papier un système de détection d’erreurs basé sur un modèle à réseaux récurrents combinant une analyse du texte au niveau des mots et des caractères en deux temps. Ce système a été classé second dans trois catégories évaluées parmi 11 candidats lors de la compétition.
Anthology ID:
2018.jeptalnrecital-court.5
Volume:
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Month:
5
Year:
2018
Address:
Rennes, France
Editors:
Pascale Sébillot, Vincent Claveau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
233–240
Language:
French
URL:
https://aclanthology.org/2018.jeptalnrecital-court.5
DOI:
Bibkey:
Cite (ACL):
Thibault Magallon, Frederic Bechet, and Benoit Favre. 2018. Détection d’erreurs dans des transcriptions OCR de documents historiques par réseaux de neurones récurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 233–240, Rennes, France. ATALA.
Cite (Informal):
Détection d’erreurs dans des transcriptions OCR de documents historiques par réseaux de neurones récurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection) (Magallon et al., JEP/TALN/RECITAL 2018)
Copy Citation:
PDF:
https://aclanthology.org/2018.jeptalnrecital-court.5.pdf