TextMine - Groupe de travail sur la fouille de textes

Groupe de Travail de l'association EGC - https://www.egc.asso.fr/

Journée de lancement TextMine

Présentation de Paul Guélorget (Airbus) à la journée de lancement TextMine

Journée de lancement du Groupe de Travail TextMine

organisée par P. Cuxac (INIST-CNRS), V. Lemaire (Orange Labs), C. Lopez (Emvista)

sous l’égide de l’Association Extraction et Gestion des Connaissances (EGC)

21 octobre 2022

en présentiel : ISC-PIF-CNRS, 113 rue nationale, 75013 Paris, France

à distance : plus d’informations sur https://textmine.sciencesconf.org/

Inscriptions requises : https://textmine.sciencesconf.org/ ou par e-mail cedric.lopez@emvista.com (limité à 50 places en présentiel)

La journée de lancement du groupe de travail TextMine a pour objectif de partager les activités proposées par le groupe autour du text mining, notamment le lancement d’un défi avec un prix à la clé, et de réunir des acteurs de cette disciplinedes mondes académiques et industriels.

9h30 – 10h00 : Accueil - café

10h00 – 10h30 : Ouverture de la journée

10h00 : Prise de parole représentant EGC, INIST-CNRS

10h10 : Présentation du groupe de travail TextMine (P. Cuxac, V. Lemaire, C. Lopez)

Slides disponibles ici

10h30 - 11h00 : Présentation du défi TextMine 2022-2023 (prix décerné)

par Kévin Cousot (Emvista), ingénieur de recherche

Slides disponibles ici

11h00 – 11h45 : Logiciel CorText Manager - Extraction d’information et analyse socio-sémantique pour les sciences humaines et sociales

par Lionel Villard (IFRIS-LISIS), invité académique

Slides disponibles ici

CorTexT Manager (https://www.cortext.net/anf-tdm-2021-focus-cortext-manager/) est une application web construite par des chercheurs et par des ingénieurs à destination de chercheurs en sciences humaines et sociales, au plus près des questions portées par les chercheurs qui nous entourent et par notre communauté d’utilisateurs.

Cette application web peut produire un grand nombre d’analyses différentes qui ont trait aux champs méthodologiques du traitement automatique de la langue, de l’analyse des réseaux sociaux, de la statistique, et plus récemment autour de la dimension géographique qui se cache dans ces données.

Un des points forts de CorTexT Manager est de pouvoir traiter plusieurs dimensions d’analyse en les combinant dans le même espace. Cet aspect hétérogène permet par exemple d’associer le temps avec la dimension sociale, de l’analyse de texte avec la dimension sociale ou géographique. Cela permet d’appréhender l’émergence de domaines de recherche et d’innovation, d’étudier des controverses et "hot topics", d’effectuer des cartographies socio-sémantiques des productions de la recherche (publications, brevets, projets), ainsi que d’analyser des contenus issus du web et des média-sociaux.

Cet atelier se propose de sensibiliser l’audience à certaines de ces méthodes tout en découvrant l’organisation et l’évolution de la production scientifique autour de la chloroquine et de l’hydroxychloroquine entre 2014 et 2020.

11h45 – 12h10 : Réflexions en cours pour dynamiser la recherche en TAL et TDM autour des données ISTEX

par Mathieu Constant (ATILF), invité académique

Slides disponibles ici

Dans cet exposé, nous présenterons brièvement la plateforme ISTEX qui permet d’accéder à un large réservoir d’archives scientifiques de 25 millions de documents. Nous discuterons plus particulièrement des réflexions en cours pour créer une communauté informelle de recherche en TAL et en TDM autour des données ISTEX.

12h10 – 13h30 : Déjeuner offert aux participants

13h30 – 14h00 : Du text-mining aux macroscopes sociaux par David Chavalarias (ISC-PIF)

14h00 – 14h45 : Analyse de données textuelles à la SNCF : cas d’usage et difficultés rencontrées

par Coralie Reutenauer (Direction Risques Audits Sécurité Sûreté à la SNCF), invitée industriel

Slides disponibles ici

Qualité rédactionnelle, recherche documentaire, analyse d’incidents, chatbots pour les agents ou clients : les cas d’usage basés sur de l’analyse et du traitement textuel se multiplient en entreprise. Les modèles de traitement du langage actuellement en vogue, tels que les word embeddings et Bert, mais aussi des traitements plus linguistiques interpellent les industriels, qui les expérimentent et les évaluent sur leurs données métiers. Cette présentation illustre, à travers des cas réels de la SNCF, les difficultés de l’analyse textuelle en milieu industriel.

14h45 – 15h30 : Extraction de l’information en santé végétale

par Mariya Borovikova (INRAE), doctorante invitée

Cette thèse est réalisée dans le cadre du projet BEYOND qui vise à améliorer les stratégies de surveillance épidémiologique en élaborant de nouveaux indicateurs du risque de maladie des plantes et en proposant de nouvelles stratégies pour assurer la surveillance. L’objectif de ce travail est l’amélioration des systèmes de veille épidémiologique en santé végétale à partir de données textuelles. Dans ce contexte, des méthodes d’extraction d’entités (plante hôte, organisme, nuisible, etc.) et de mise en lien avec des concepts d’ontologies spécialisées sont proposées (regarde figure 1).

À ce jour, des méthodes par apprentissage profond sont principalement utilisées pour résoudre cette tâche. Notamment, des architectures intégrant des Bi-LSTM et des modèles de langues tels que BERT sont utilisés pour prédire des entités. En ce qui concerne la normalisation, des chercheurs utilisent deux approches. Soit un algorithme CRF où des couches supplémentaires sont utilisées pour le reclassement des concepts d’ontologies, soit l’espace vectoriel est construit et la similarité cosinus est calculée. Ces méthodes nécessitent une grande quantité de données d’entraînement étiquetées . Dans les domaines de spécialité, ces données sont rares, ce qui limite la performance des méthodes par apprentissage.

Nous supposons que la qualité des modèles de langage utilisés joue un rôle important et pourrait nous permettre de dépasser cette limite. Plus précisément, nous proposons d’ajuster des modèles de langage de types BERT et XLNet sur des textes qui contiennent des descriptions des plantes et de leurs maladies ainsi que des organismes nuisibles. Ainsi, des informations contextuelles sur des entités qui nous intéressent pourraient être des indices supplémentaires aux algorithmes.

15h30 – 16h15 : Apprentissage actif pour la détection de classes arbitraires dans les contenus multimédia.

par Paul Guélorget (AIRBUS), invité industriel

Une profusion de contenus, acteurs et interactions en source ouverte sont ciblées par les analystes, ce qui requiert une assistance automatisée. Bien que les propositions récentes en matière d'architectures de réseaux de neurones aient montré de fortes capacités envers les modalités image et texte, leur entraînement exploite des jeux de données massifs, inexistants pour la majorité des classes d'intérêt. Pour résoudre ce problème, l'apprentissage actif tire parti de la grande quantité de documents non annotés en sollicitant un oracle humain pour obtenir les labels des documents présumés les plus informatifs, afin d’améliorer la précision.

Dans un premier temps, nous cherchons à affiner les prédictions faites par un réseau de neurones dans un contexte d'apprentissage actif pour la classification de textes. Cela passe d'abord par la connaissance des mots les plus significatifs pour le modèle, puis par le guidage du modèle vers les mots les plus indicateurs de l'appartenance à chaque classe. Ce principe est ensuite adapté à la classification d'images.

À cause de ses longues étapes successives, le déroulement de l'apprentissage actif nuit à ses performances en temps réel. Pour surmonter cette limitation, nous présentons un système d'apprentissage actif par micro-services.

Plusieurs cas d'utilisation sont abordés, parmi lesquels la reconnaissance du vague et des fausses nouvelles, la détection du manque d'avis contradictoires dans les articles et la classification d'articles comme abordant des sujets arbitrairement choisis, tels que les manifestations ou la violence.

16h15 – 16h30 : Clôture de la journée (P. Cuxac, V. Lemaire, C. Lopez)

Personnes connectées : 2

Vie privée