Atelier TextMine'25

Programme Atelier TextMine’25

28 janvier 2025

Inscription à l'atelier : https://inscription.egc.asso.fr/event/egc2025/

9h30 : Accueil / Ouverture. Pascal Cuxac et Cédric Lopez

9h45 : (Invitée) Est ce que les LLM véhiculent des stéréotypes lors de la détection de position ? Christine Largeron (Université Jean Monnet à Saint-Etienne ; Laboratoire Hubert Curien)

Résumé : Les grands modèles linguistiques héritent des stéréotypes de leurs données de pré-entraînement, ce qui conduit à un comportement biaisé envers certains groupes sociaux dans de nombreuses tâches de traitement du langage naturel, telles que la détection des discours haineux ou l'analyse des sentiments. Étonnamment, l'évaluation de ce type de biais dans les méthodes de détection de position a été largement négligée par la communauté. La détection de position consiste à étiqueter une déclaration comme étant, contre, en faveur ou neutre envers une cible spécifique et fait partie des tâches de NLP les plus sensibles, car elle est souvent liée aux tendances politiques. Dans cette présentation, nous étudierons les biais des grands modèles linguistiques lors de la détection de position afin de voir s'ils véhiculent ou non des stéréotypes.

10h30 : PAUSE

11h00 : Introduction au défi TextMine’25. Maxime Prieur et Guillaume Gadek (Airbus Defence and Space)

11h15 : Adaptation d'un modèle de langue encodeur-décodeur pour l'extraction de relations dans des rapports de renseignement. Adrien Guille

11h30 : ICB@Défi TextMine’25 : Extraction de relations pour l’analyse des rapports de renseignement. Hussam Ghanem, Daren Hacbekri et Christophe Cruz

11h45 : CEA-List@TextMine’25 : ensemble, c’est mieux ? Arthur Peuvot, Romaric Besançon, Olivier Ferret, Benjamin Labbé, Clément Maurer, Nasredine Semmar et Sondes Souihi.

12h00 : Tackling Class Imbalance in Relation Extraction for french text: Effective Negative Sampling et Advanced Loss Functions. Iliass Ayaou

12h15 : GLiDRE : Modèle généraliste pour l'extraction de relations à l'échelle de documents. Robin Armingaud.

12h30 : DEJEUNER

14h00 : (Invitée) Extraction d’information dans un contexte spécifique. Nihel Kooli (Agence ministérielle de l'intelligence artificielle de défense)

Résumé : Malgré les avancées notables dans le domaine d’extraction d’informations, celui-ci présente encore des défis notamment quand il s’agit d’étudier des contextes spécifiques. Ces derniers peuvent être liés à un domaine de spécialité, à une langue autre que l’anglais (langues moins dotées) ou à un type de documents présentant un langage spécifique (ex : textes issus des réseaux sociaux).

Durant ce talk, nous nous intéresserons aux tâches de reconnaissance d’entités et de détection d’évènements dans des contextes métiers spécifiques. Nous ferons également un focus sur les challenges en lien avec l’élaboration de corpus pour l’apprentissage et l’évaluation de ces tâches.

14h45 : Affinage de Transformers et Larges Modèles de Lanfgage pour l'Extraction de Relations Synthétiques (TextMine 2025). Jean Meunier-Pion.

15h00 : Défi TextMine 2025 : Utilisation des Grands Modèles de Langue pour l'Extraction de Relations dans les Rapports de Renseignement. Mohamed Ettaleb, Mouna Kamel, Véronique Moriceau et Nathalie Aussenac-Gilles.

15h15 : Participation de l’équipe Défense au défi TextMine’25 en extraction de relations dans des bulletins de renseignement. Nicolas Diniz, Nihel Kooli, Lucie Chasseur et Pauline Soutrenon.

15h30 : PAUSE

16h00 : Défi TextMine 2025 : Extraction de relations multi-étiquettes en utilisant des modèles pré-entraînés et des couches de Transformer. Gildas Tagny Ngompe and Ngoc Luyen Le

16h15 : Annonce du classement des participants au défi

16h20 : Enhancing Few-Shot Topic Classification with Verbalizers. A Study on Automatic Verbalizers and Ensemble Methods. Quang Anh Nguyen, Nadi Tomeh, Mustapha Lebbah, Thierry Charnois, Hanane Azzag and Santiago Cordoba Munoz

16h30 : Clôture de l'atelier TextMine'25

APPEL à SOUMISSION + défi !

TextMine’25 - Atelier sur la Fouille de Textes #IA #NLP #textmining
Atelier de la conférence EGC'25
Journée du 28 janvier 2025 à Strasbourg

Résumé

Le groupe de travail TextMine organise cet atelier dans le but de réunir des chercheurs sur la thématique large de la fouille de textes. Cet atelier vise à offrir une occasion de rencontres pour les universitaires et les industriels, appartenant aux différentes communautés de l'intelligence artificielle, l'apprentissage automatique, le traitement automatique des langues, afin de discuter des méthodes de fouille de texte au sens large et de leurs applications.

Défi TextMine 2025

Cette année, le groupe de travail TextMine lance un défi qui porte sur l' "Extraction de relations pour l’analyse des rapports de renseignement" avec un prix de 500 € à la clé remis lors de la conférence EGC:
https://www.kaggle.com/competitions/defi-textmine-2025

Descriptif

C'est une évidence que de dire que nous sommes entrés dans une ère où la donnée textuelle sous toute ses formes submerge chacun de nous que ce soit dans son environnement personnel ou professionnel : l'augmentation croissante de documents nécessaires aux entreprises ou aux administrations, la profusion de données textuelles disponibles via Internet, le développement des données en libre accès (Open Data), les bibliothèques et archives en lignes, les media sociaux ne sont que quelques exemples illustrant l'évolution de la notion de texte, sa diversité et sa prolifération
Face à cela, les méthodes automatiques de fouille de données (data mining), et plus spécifiquement celles de fouille de textes (text mining) sont devenues incontournables. Récemment, les méthodes de deep learning ont créées de nouvelles possibilités de recherche pour traiter des données massives et de grandes dimensions. Cependant, de nombreuses questions restent en suspens, par exemple en ce qui concerne la gestion de gros corpus textuels multi-thématiques. Pouvoir disposer d’outils d’analyse textuelle efficaces, capables de s’adapter à de gros volumes de données, souvent de nature hétérogène, rarement structurés, dans des langues variées, des domaines très spécialisés ou au contraire de l'ordre du langage naturel reste un challenge.

La fouille de textes couvre de multiples domaines comme le traitement automatique des langues, l'intelligence artificielle, la linguistique, les statistiques, l'informatique...et les applications sont très diversifiées, que ce soit la recherche d'information, le filtrage de spam, le marketing, la veille scientifique ou économique, la lutte antiterroriste …
En France, des conférences telles que TALN, CORIA, JADT sont centrées sur l'analyse et le traitement des textes, mais avec des approches plus ciblées soit TAL, soit RI, soit statistiques. Cet atelier se veut plus fédérateur autour d'approches et d'applications aussi diverses que possibles.

Objectifs

L'objectif de cet atelier est de favoriser des présentations et des discussions. Peuvent être soumis :
• des résumés étendus (4 pages, hors bibliographie)
• des articles longs (maximum 12 pages, hors bibliographie)
• des propositions de démonstration logicielles (4 pages, hors bibliographie)
• dans le cadre du défi, les participants peuvent optionnellement soumettre des articles courts (2 pages, hors bibliographie) à remettre au plus tard le 20 novembre. Ces articles seront relus par le comité, les meilleurs participants auront la possibilité d’étendre leur article court à 12 pages pour publication dans les actes de TextMine.

Les contributions seront publiées sous forme d’actes en ligne. La soumission de prises de position bien articulées, d’expériences industrielles et de travaux en cours sont les bienvenus et privilégiés. Des contributions portant sur l'intérêt pratique des travaux, qu'elles viennent de l'industrie ou du monde académique, ou présentant des collaborations entre les deux seraient appréciées. Le but est le partage d’expérience et de savoir sur les problématiques liées à la fouille de textes.
Pour les démonstrations une présentation orale aménagée devra être préparée (temps de présentation plus court, et temps pour effectuer la démo sur projecteur en fin de présentation). Un temps sera prévu dans le programme pour les démos.

Principaux thèmes (liste non limitative)

Méthodes de traitement automatique de la langue (TAL)
Classifications statiques de textes
Classifications dynamiques de textes
Méthodes d'apprentissage
Approches par graphes
Recherche d'information
Indexation
Détection d'entités nommées
Résumé automatique
Détection de nouveautés
Analyse de sentiments
...

Liste des domaines d'application (liste non limitative)

Fouille de documents scientifiques
Données médicales
Brevets
Analyse d'opinions
Media sociaux (Twitter…)
Veille scientifiques
Intelligence économique
Appui au pilotage scientifique
Bibliométrie
Systèmes (à base) de dialogues
...

Modalités et déroulement de l'atelier

Introduction par les organisateurs
Exposé invité
Exposés selon articles reçus et sélectionnés
Table ronde

Dates importantes

Date limite de soumission des articles courts dans le cadre du défi (voir plus haut) : 20/11/2024

Date limite de soumission des articles (hors défi) : 09/12/2024
Notification aux auteurs : 10/01/2024
Version finale : 20/01/2025
Atelier : 28/01/2025

Le format de soumission devra impérativement suivre le modèle LaTeX RNTI mis à jour en 2024. Merci de télécharger la dernière version du modèle RNTI.

Les articles peuvent ne pas être anonymisés.

Les articles doivent être rédigés en français ou en anglais.

Les soumissions sont à faire sur : https://easychair.org/conferences/?conf=textmine25

Vie privée | Accessibilité