Constitution d’une ressource sémantique issue du treillis des catégories de Wikipedia

Olivier Collin, Benoît Gaillard, Jean-Léon Bouraoui


Abstract
Le travail présenté dans cet article s’inscrit dans le thème de l’acquisition automatique de ressources sémantiques s’appuyant sur les données de Wikipedia. Nous exploitons le graphe des catégories associées aux pages de Wikipedia à partir duquel nous extrayons une hiérarchie de catégories parentes, sémantiquement et thématiquement liées. Cette extraction est le résultat d’une stratégie de plus court chemin appliquée au treillis global des catégories. Chaque page peut ainsi être représentée dans l’espace de ses catégories propres, ainsi que des catégories parentes. Nous montrons la possibilité d’utiliser cette ressource pour deux applications. La première concerne l’indexation et la classification des pages de Wikipedia. La seconde concerne la désambiguïsation dans le cadre d’un traducteur de requêtes français/anglais. Ce dernier travail a été réalisé en exploitant les catégories des pages anglaises.
Anthology ID:
2010.jeptalnrecital-court.4
Volume:
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
July
Year:
2010
Address:
Montréal, Canada
Editors:
Philippe Langlais, Michel Gagnon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
20–25
Language:
French
URL:
https://aclanthology.org/2010.jeptalnrecital-court.4
DOI:
Bibkey:
Cite (ACL):
Olivier Collin, Benoît Gaillard, and Jean-Léon Bouraoui. 2010. Constitution d’une ressource sémantique issue du treillis des catégories de Wikipedia. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 20–25, Montréal, Canada. ATALA.
Cite (Informal):
Constitution d’une ressource sémantique issue du treillis des catégories de Wikipedia (Collin et al., JEP/TALN/RECITAL 2010)
Copy Citation:
PDF:
https://aclanthology.org/2010.jeptalnrecital-court.4.pdf