Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses)

Marwa Hadj Salah, Hervé Blanchon, Mounir Zrigui, Didier Schwab


Abstract
OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l’arabe. Elle reste peu connue et utilisée certainement parce que le projet s’est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l’accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s’agit d’une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l’alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu’elle deviendra un standard pour l’évaluation de la désambiguïsation lexicale de l’arabe.
Anthology ID:
2018.jeptalnrecital-demo.7
Volume:
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Month:
5
Year:
2018
Address:
Rennes, France
Editors:
Pascale Sébillot, Vincent Claveau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
213–216
Language:
French
URL:
https://aclanthology.org/2018.jeptalnrecital-demo.7
DOI:
Bibkey:
Cite (ACL):
Marwa Hadj Salah, Hervé Blanchon, Mounir Zrigui, and Didier Schwab. 2018. Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses). In Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT, pages 213–216, Rennes, France. ATALA.
Cite (Informal):
Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses) (Hadj Salah et al., JEP/TALN/RECITAL 2018)
Copy Citation:
PDF:
https://aclanthology.org/2018.jeptalnrecital-demo.7.pdf