Un chunker multilingue endogène

Jacques Vergne


Abstract
Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu’Abney a défini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des débuts et fins de chunk. Mais cette méthode, si l’on veut l’étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une nouvelle méthode : le chunking endogène, qui n’utilise aucune ressource hormis le texte analysé lui-même. Cette méthode prolonge les travaux de Zipf : la minimisation de l’effort de communication conduit les locuteurs à raccourcir les mots fréquents. On peut alors caractériser un chunk comme étant la période des fonctions périodiques correllées longueur et effectif des mots sur l’axe syntagmatique. Cette méthode originale présente l’avantage de s’appliquer à un grand nombre de langues d’écriture alphabétique, avec le même algorithme, sans aucune ressource.
Anthology ID:
2009.jeptalnrecital-demonstration.14
Volume:
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Month:
June
Year:
2009
Address:
Senlis, France
Editors:
Adeline Nazarenko, Thierry Poibeau
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
40–42
Language:
French
URL:
https://aclanthology.org/2009.jeptalnrecital-demonstration.14
DOI:
Bibkey:
Cite (ACL):
Jacques Vergne. 2009. Un chunker multilingue endogène. In Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations, pages 40–42, Senlis, France. ATALA.
Cite (Informal):
Un chunker multilingue endogène (Vergne, JEP/TALN/RECITAL 2009)
Copy Citation:
PDF:
https://aclanthology.org/2009.jeptalnrecital-demonstration.14.pdf