L’évaluation des représentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet)

Nourredine Aliane, Jean-Jacques Mariage, Gilles Bernard


Abstract
Les méthodes d’évaluation actuelles des représentations vectorielles de mots utilisent généralement un jeu de données restreint et biaisé. Pour pallier à ce problème nous présentons une nouvelle approche, basée sur la similarité entre les synsets associés aux mots dans la volumineuse base de données lexicale WordNet. Notre méthode d’évaluation consiste dans un premier temps à classer automatiquement les représentions vectorielles de mots à l’aide d’un algorithme de clustering, puis à évaluer la cohérence sémantique et syntaxique des clusters produits. Cette évaluation est effectuée en calculant la similarité entre les mots de chaque cluster, pris deux à deux, en utilisant des mesures de similarité entre les mots dans WordNet proposées par NLTK (wup _similarity). Nous obtenons, pour chaque cluster, une valeur entre 0 et 1. Un cluster dont la valeur est 1 est un cluster dont tous les mots appartiennent au même synset. Nous calculons ensuite la moyenne des mesures de tous les clusters. Nous avons utilisé notre nouvelle approche pour étudier et comparer trois méthodes de représentations vectorielles : une méthode traditionnelle, WebSOM et deux méthodes récentes, word2vec (Skip-Gram et CBOW) et GloVe, sur trois corpus : en anglais, en français et en arabe.
Anthology ID:
2018.jeptalnrecital-court.14
Volume:
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Month:
5
Year:
2018
Address:
Rennes, France
Editors:
Pascale Sébillot, Vincent Claveau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
321–328
Language:
French
URL:
https://aclanthology.org/2018.jeptalnrecital-court.14
DOI:
Bibkey:
Cite (ACL):
Nourredine Aliane, Jean-Jacques Mariage, and Gilles Bernard. 2018. L’évaluation des représentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 321–328, Rennes, France. ATALA.
Cite (Informal):
L’évaluation des représentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet) (Aliane et al., JEP/TALN/RECITAL 2018)
Copy Citation:
PDF:
https://aclanthology.org/2018.jeptalnrecital-court.14.pdf