Un corpus français arboré : quelques interrogations

Anne Abeillé, Lionel Clément, Alexandra Kinyon, François Toussenel


Abstract
Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.
Anthology ID:
2001.jeptalnrecital-long.1
Volume:
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
July
Year:
2001
Address:
Tours, France
Editor:
Denis Maurel
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
33–42
Language:
French
URL:
https://aclanthology.org/2001.jeptalnrecital-long.1
DOI:
Bibkey:
Cite (ACL):
Anne Abeillé, Lionel Clément, Alexandra Kinyon, and François Toussenel. 2001. Un corpus français arboré : quelques interrogations. In Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 33–42, Tours, France. ATALA.
Cite (Informal):
Un corpus français arboré : quelques interrogations (Abeillé et al., JEP/TALN/RECITAL 2001)
Copy Citation:
PDF:
https://aclanthology.org/2001.jeptalnrecital-long.1.pdf