Que recèlent les données textuelles issues du web ? (What do text data from the Web have to hide ?)

Adrien Barbaresi, Gaël Lejeune


Abstract
La collecte et l’usage opportunistes de données textuelles tirées du web sont sujets à une série de problèmes éthiques, méthodologiques et épistémologiques qui méritent l’attention de la communauté scientifique. Nous présentons des études empiriques de leur impact en linguistique et TAL centrées sur la forme (méthodes d’extraction des données) ainsi que sur le fond (contenu des corpus).
Anthology ID:
2020.jeptalnrecital-eternal.3
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL)
Month:
6
Year:
2020
Address:
Nancy, France
Editors:
Gilles Adda, Maxime Amblard, Karën Fort
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
19–28
Language:
French
URL:
https://aclanthology.org/2020.jeptalnrecital-eternal.3
DOI:
Bibkey:
Cite (ACL):
Adrien Barbaresi and Gaël Lejeune. 2020. Que recèlent les données textuelles issues du web ? (What do text data from the Web have to hide ?). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL), pages 19–28, Nancy, France. ATALA et AFCP.
Cite (Informal):
Que recèlent les données textuelles issues du web ? (What do text data from the Web have to hide ?) (Barbaresi & Lejeune, JEP/TALN/RECITAL 2020)
Copy Citation:
PDF:
https://aclanthology.org/2020.jeptalnrecital-eternal.3.pdf