Exploration et utilisation d’informations distantes dans les modèles de langage statistiques

Armelle Brun, David Langlois, Kamel Smaïli


Abstract
Dans le cadre de la modélisation statistique du langage, nous montrons qu’il est possible d’utiliser un modèle n-grammes avec un historique qui n’est pas nécessairement celui avec lequel il a été appris. Par exemple, un adverbe présent dans l’historique peut ne pas avoir d’importance pour la prédiction, et devrait donc être ignoré en décalant l’historique utilisé pour la prédiction. Notre étude porte sur les modèles n-grammes classiques et les modèles n-grammes distants et est appliquée au cas des bigrammes. Nous présentons quatre cas d’utilisation pour deux modèles bigrammes : distants et non distants. Nous montrons que la combinaison linéaire dépendante de l’historique de ces quatre cas permet d’améliorer de 14 % la perplexité du modèle bigrammes classique. Par ailleurs, nous nous intéressons à quelques cas de combinaison qui permettent de mettre en valeur les historiques pour lesquels les modèles que nous proposons sont performants.
Anthology ID:
2006.jeptalnrecital-poster.6
Volume:
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
April
Year:
2006
Address:
Leuven, Belgique
Editors:
Piet Mertens, Cédrick Fairon, Anne Dister, Patrick Watrin
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
425–434
Language:
French
URL:
https://aclanthology.org/2006.jeptalnrecital-poster.6
DOI:
Bibkey:
Cite (ACL):
Armelle Brun, David Langlois, and Kamel Smaïli. 2006. Exploration et utilisation d’informations distantes dans les modèles de langage statistiques. In Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Posters, pages 425–434, Leuven, Belgique. ATALA.
Cite (Informal):
Exploration et utilisation d’informations distantes dans les modèles de langage statistiques (Brun et al., JEP/TALN/RECITAL 2006)
Copy Citation:
PDF:
https://aclanthology.org/2006.jeptalnrecital-poster.6.pdf