Jean-Marie Pierrel

2014

pdf bib
ORTOLANG an infrastructure for sharing of written and speech language resources (ORTOLANG : une infrastructure de mutualisation de ressources linguistiques écrites et orales) [in French]
Jean-Marie Pierrel
Proceedings of TALN 2014 (Volume 3: System Demonstrations)

2012

pdf bib abs
Towards a methodology for automatic identification of hypernyms in the definitions of large-scale dictionary
Inga Gheorghita | Jean-Marie Pierrel
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

The purpose of this paper is to identify automatically hypernyms for dictionary entries by exploring their definitions. In order to do this, we propose a weighting methodology that lets us assign to each lexeme a weight in a definition. This fact allows us to predict that lexemes with the highest weight are the closest hypernyms of the defined lexeme in the dictionary. The extracted semantic relation is-a is used for the automatic construction of a thesaurus for image indexing and retrieval. We conclude the paper by showing some experimental results to validate our method and by presenting our methodology of automatic thesaurus construction.

2010

Currently, research infrastructures are being designed and established in many disciplines since they all suffer from an enormous fragmentation of their resources and tools. In the domain of language resources and tools the CLARIN initiative has been funded since 2008 to overcome many of the integration and interoperability hurdles. CLARIN can build on knowledge and work from many projects that were carried out during the last years and wants to build stable and robust services that can be used by researchers. Here service centres will play an important role that have the potential of being persistent and that adhere to criteria as they have been established by CLARIN. In the last year of the so-called preparatory phase these centres are currently developing four use cases that can demonstrate how the various pillars CLARIN has been working on can be integrated. All four use cases fulfil the criteria of being cross-national.

2009

pdf bib
LGeRM: Lemmatisation des mots en moyen français [LGeRM: lemmatization of Middle French words]
Gilles Souvay | Jean-Marie Pierrel
Traitement Automatique des Langues, Volume 50, Numéro 2 : Langues anciennes [Ancient Languages]

2007

pdf bib abs
Les Lexiques-Miroirs. Du dictionnaire bilingue au graphe multilingue
Sébastien Haton | Jean-Marie Pierrel
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

On observe dans les dictionnaires bilingues une forte asymétrie entre les deux parties d’un même dictionnaire et l’existence de traductions et d’informations « cachées », i.e. pas directement visibles à l’entrée du mot à traduire. Nous proposons une méthodologie de récupération des données cachées ainsi que la « symétrisation » du dictionnaire grâce à un traitement automatique. L’étude d’un certain nombre de verbes et de leurs traductions en plusieurs langues a conduit à l’intégration de toutes les données, visibles ou cachées, au sein d’une base de données unique et multilingue. L’exploitation de la base de données a été rendue possible par l’écriture d’un algorithme de création de graphe synonymique qui lie dans un même espace les mots de langues différentes. Le programme qui en découle permettra de générer des dictionnaires paramétrables directement à partir du graphe.

pdf bib abs
Le CNRTL, Centre National de Ressources Textuelles et Lexicales, un outil de mutualisation de ressources linguistiques
Jean-Marie Pierrel | Etienne Petitjean
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Créé en 2005 à l’initiative du Centre National de la Recherche Scientifique, le CNRTL propose une plate-forme unifiée pour l’accès aux ressources et documents électroniques destinés à l’étude et l’analyse de la langue française. Les services du CNRTL comprennent le recensement, la documentation (métadonnées), la normalisation, l’archivage, l’enrichissement et la diffusion des ressources. La pérennité du service et des données est garantie par le soutien institutionnel du CNRS, l’adossement à un laboratoire de recherche en linguistique et informatique du CNRS et de Nancy Université (ATILF – Analyse et Traitement Informatique de la Langue Française), ainsi que l’intégration dans le réseau européen CLARIN (common language resources and technology infrastructure european).

2004

pdf bib
A Computerized Dictionary : Le trésor de la langue française informatisé (TLFi)
Pascale Bernard | Jacques Dendien | Jean-Marie Pierrel
Proceedings of the Workshop on Enhancing and Using Electronic Dictionaries

pdf bib abs
La FREEBANK : vers une base libre de corpus annotés
Susanne Salmon-Alt | Eckhard Bick | Laurent Romary | Jean-Marie Pierrel
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les corpus français librement accessibles annotés à d’autres niveaux linguistiques que morpho-syntaxique sont insuffisants à la fois quantitativement et qualitativement. Partant de ce constat, la FREEBANK – construite sur la base d’outils d’analyse automatique dont la sortie est révisée manuellement – se veut une base de corpus du français annotés à plusieurs niveaux (structurel, morphologique, syntaxique, coréférentiel) et à différents degrés de finesse linguistique qui soit libre d’accès, codée selon des schémas normalisés, intégrant des ressources existantes et ouverte à l’enrichissement progressif.

2002

pdf bib
Computerized linguistic resources of the research laboratory ATILF for lexical and textual analysis: Frantext, TLFi, and the software Stella
Pascale Bernard | Josette Lecomte | Jacques Dendien | Jean-Marie Pierrel
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

pdf bib
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Jean-Marie Pierrel
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées

pdf bib
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Jean-Marie Pierrel
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf bib
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Jean-Marie Pierrel
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

pdf bib
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
Jean-Marie Pierrel
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels

pdf bib abs
Un ensemble de ressources informatisées et intégrées pour l’étude du français : FRANTEXT, TLFi, Dictionnaires de l’Académie et logiciel Stella, présentation et apprentissage de leurs exploitations
Pascale Bernard | Jacques Dendien | Josette Lecomte | Jean-Marie Pierrel
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels

Nous proposons de présenter quelques-unes des ressources linguistiques informatisées que le laboratoire ATILF propose sur la toile et leurs diversités d’exploitation potentielle. Ces importantes ressources sur la langue française regroupent un ensemble de divers dictionnaires et lexiques, et de bases de données dont les plus importants sont le TLFi (Trésor de la Langue Française informatisé) et Frantext (plus de 3500 textes, dont la plupart catégorisés). Elles exploitent, pour la plupart, les fonctionnalités du logiciel Stella, qui correspond à un véritable moteur de recherche dédié aux bases textuelles s’appuyant sur une nouvelle théorie des objets textuels. Tous les spécialistes de traitement automatique de la langue ainsi que tous les linguistes, syntacticiens aussi bien que sémanticiens, stylisticiens et autres peuvent exploiter avec bonheur les possibilités offertes par Stella sur le TLFi et autres ressources offertes par l’ATILF. Ces recherches peuvent s’articuler autour des axes suivants : études en vue de repérer des cooccurrences et collocations, extraction de sous-lexiques, études morphologiques, études de syntaxe locale, études de sémantique, études de stylistique, etc. Nous proposons de démystifier le maniement des requêtes sur le TLFi, FRANTEXT et nos autres ressources à l’aide du logiciel Stella, et d’expliquer et de montrer comment interroger au mieux ces ressources et utiliser l’hyper-navigation mise en place entre ces ressources pour en tirer les meilleurs bénéfices.

2001

Cette contribution présente les ressources linguistiques informatisées du laboratoire ATILF (Analyses et Traitements Informatiques du Lexique Français) disponibles sur la toile et sert de support aux démonstrations prévues dans le cadre de TALN 2001. L’ATILF est la nouvelle U1[R créée en association entre le CNRS et l’Université Nancy 2 qui, depuis le 2 janvier 2001, a succédé à la composante nancéienne de l’INaLF. Ces importantes ressources sur la langue française regroupent un ensemble de plus de 3500 textes réunis dans Frantext et divers dictionnaires, lexiques et autres bases de données. Ces ressources exploitent les fonctionnalités du logiciel Stella, qui correspond à un véritable moteur de recherche dédié aux bases textuelles s’appuyant sur une nouvelle théorie des objets textuels. La politique du laboratoire consiste à ouvrir très largement ses ressources en particulier au monde de la recherche et de l’enseignement.