Structure des trigrammes inconnus et lissage par analogie (Structure of unknown trigrams and smoothing by analogy)

Julien Gosme, Yves Lepage


Abstract
Nous montrons dans une série d’expériences sur quatre langues, sur des échantillons du corpus Europarl, que, dans leur grande majorité, les trigrammes inconnus d’un jeu de test peuvent être reconstruits par analogie avec des trigrammes hapax du corpus d’entraînement. De ce résultat, nous dérivons une méthode de lissage simple pour les modèles de langue par trigrammes et obtenons de meilleurs résultats que les lissages de Witten-Bell, Good-Turing et Kneser-Ney dans des expériences menées en onze langues sur la partie commune d’Europarl, sauf pour le finnois et, dans une moindre mesure, le français.
Anthology ID:
2011.jeptalnrecital-long.25
Volume:
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2011
Address:
Montpellier, France
Editors:
Mathieu Lafourcade, Violaine Prince
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
282–293
Language:
French
URL:
https://aclanthology.org/2011.jeptalnrecital-long.25
DOI:
Bibkey:
Cite (ACL):
Julien Gosme and Yves Lepage. 2011. Structure des trigrammes inconnus et lissage par analogie (Structure of unknown trigrams and smoothing by analogy). In Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 282–293, Montpellier, France. ATALA.
Cite (Informal):
Structure des trigrammes inconnus et lissage par analogie (Structure of unknown trigrams and smoothing by analogy) (Gosme & Lepage, JEP/TALN/RECITAL 2011)
Copy Citation:
PDF:
https://aclanthology.org/2011.jeptalnrecital-long.25.pdf