Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux (POS tagging for low-resource languages by adapting word embeddings )

Pierre Magistry, Anne-Laure Ligozat, Sophie Rosset


Abstract
Cet article présente une nouvelle méthode d’étiquetage en parties du discours adaptée aux langues peu dotées : la définition du contexte utilisé pour construire les plongements lexicaux est adaptée à la tâche, et de nouveaux vecteurs sont créés pour les mots inconnus. Les expériences menées sur le picard, le malgache et l’alsacien montrent que cette méthode améliore l’état de l’art pour ces trois langues peu dotées.
Anthology ID:
2018.jeptalnrecital-long.6
Volume:
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Month:
5
Year:
2018
Address:
Rennes, France
Editors:
Pascale Sébillot, Vincent Claveau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
75–86
Language:
French
URL:
https://aclanthology.org/2018.jeptalnrecital-long.6
DOI:
Bibkey:
Cite (ACL):
Pierre Magistry, Anne-Laure Ligozat, and Sophie Rosset. 2018. Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux (POS tagging for low-resource languages by adapting word embeddings ). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 75–86, Rennes, France. ATALA.
Cite (Informal):
Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux (POS tagging for low-resource languages by adapting word embeddings ) (Magistry et al., JEP/TALN/RECITAL 2018)
Copy Citation:
PDF:
https://aclanthology.org/2018.jeptalnrecital-long.6.pdf