Groupe de Travail de l'association EGC - https://www.egc.asso.fr/

Atelier TextMine'24

textmine24

 

Programme de l'atelier TextMine'24

23 janvier 2024 (Dijon, France)

 

Actes de l'atelier TextMine'24 du 23 janvier 2024 : Télécharger les actes

 

  • 10h00 - 10h15 : Le groupe de travail TextMine

par Pascal Cuxac (Inist-CNRS) et Cédric Lopez (Emvista)

 

  • 10h15 - 10h35 : Extraction de connaissances basée sur l'analyse formelle de concepts en vue de l'assistance aux débats en ligne

par Imen Ben Sassi (LIRMM, Université de Montpellier, CNRS)

 

  • 10h35 - 10h55 : Employing Graph Neural Network for Syntactic Dependency-based Document Classification

par Kévin Cousot (Emvista)

 

  • 10h55 - 11h15 : Extraction d’acronymes torturés dans la littérature scientifique

par Alexandre Clausse (Université Toulouse III – Paul Sabatier, IRIT UMR 5505 CNRS)

 

  • 11h15 - 11h35 : Normalisation automatique de variables issues de bases de données en agroécologie

par Oussama Mechhour (CIRAD, UPR AIDA & UMR TETIS)

 

  • 11h35 - 12h30 : Approches linguistiques pour la fouille d'articles scientifiques.

par notre conférencière invitée Iana Atanassova (Université de Franche-Comté, directrice du CRIT / Institut Universitaire de France (IUF))

Résumé : Dans cette présentation nous aborderons la problématique de la fouille de corpus scientifiques en différentes disciplines et en plein texte. Nous montrerons des résultats de l'annotation sémantique de corpus et l'extraction d'informations, par l'application d'approches fondées sur les ressources linguistiques qui seront mis en perspective avec des méthodes par apprentissage. Nous nous intéressons en particulier à la notion d'incertitude scientifique et à la possibilité de l'identifier et la catégoriser dans les textes des publications. Nous aborderons également la problématique du multilinguisme dans les articles à travers une étude de corpus.

 

12h30 - 14h00 : PAUSE DÉJEUNER

 

  • 14h00 - 14h55 : Optimiser l'annotation de données : évaluation critique des outils et présentation de Labelit

par notre conférencier invité Mohamed Chetouani (dir. scientifique chez Batvoice Technologies)

 

Résumé : L'importance cruciale des données dans le développement de l'intelligence artificielle met en lumière le rôle essentiel de l'annotation, une intervention humaine sur les données. Cette intervention peut prendre diverses formes telles que l'étiquetage, la segmentation, la description, l'évaluation ou la transcription de données. Les progrès significatifs dans le domaine de l'IA sont attribuables à la disponibilité de données de qualité annotées.

L'annotation est considérée comme une étape clé dans la conception de systèmes d'IA, et de nombreux outils d'annotation sont disponibles pour les domaines académiques et non académiques. Cependant, l'utilisation de plusieurs outils spécifiques pour différentes tâches d'annotation sur des données hétérogènes présente des défis.

La présentation examine divers outils d'annotation, se concentrant sur des critères tels que l'ouverture, la disponibilité en ligne, la maintenance et la personnalisation. Cette analyse révèle certaines limitations des outils actuels, telles que la difficulté de définir et de partager des stratégies d'annotation, le manque de transparence dans la gestion des données et les défis liés à la charge de travail des annotateurs.

En réponse à ces défis, la présentation introduit l'outil Labelit, un outil ouvert (https://github.com/voicelab-org/labelit) et en ligne initialement développé pour les besoins de Batvoice. Labelit facilite les campagnes d'annotation de tâches multiples sur des données audio, en particulier des appels téléphoniques, en assurant une gestion contrôlée des données et de la charge de travail des annotateurs. L'outil tire parti de technologies logicielles récentes, offrant une adaptabilité efficace à de nouvelles tâches, des changements de stratégie d'annotation et à l'annotation de données hétérogènes. Des cas d'utilisation illustreront les fonctionnalités de Labelit au cours de la présentation.

 

  • 14h55 -15h15 : Indexation semi-supervisée abstractive-extractive de documents

 par Saber Zahhar

 

  • 15h15 - 15h35 :  Evaluation de petits LLM quantifiés sur une tâche de classification de textes en français

 par Philippe Suignard (EDF R&D)

 

  • 15h35-15h45 : PAUSE avant la session “défi”

 

  • 15h45 - 16h00 : [introduction de la session défi] Extraction automatique d’entités spatiales imbriquées et de relations spatiales à partir de texte pour la création de graphes de connaissances : Une approche et un jeu de données

 par Helen Mair Rawsthorne (LASTIG, Univ Gustave Eiffel, IGN-ENSG)

 

  • 16h00 - 16h15 : CIAD System for Geographical Entity Detection at TextMine’24 

 par Pauline Armary (CIAD, UMR 7533, Université de Bourgogne, UB)

 

  • 16h15 - 16h30 : Défi TextMine 2024 : "Reconnaissance d’entités géographiques dans un corpus des Instructions nautiques"

 par Nicolas Gutehrlé (Université de Franche-Comté, CRIT)

 

  • 16h30 - 16h45 : OctopusMind @ Défi TextMine’24 Reconnaissance d’entités géographiques dans un corpus d’instructions nautiques,

 par Oussama Ahmia (OctopusMind)

 

  • 16h450 - 17h00 : Détection d’entités nommées géographiques par réseau de neurones récurrents

 par Lucas Anki (Inist-CNRS)

 

  • 17h00 - 17h15 : TETIS @ Challenge TextMine 2024 : "Reconnaissance d’entités géographiques dans un corpus des Instructions nautiques"

 par Sarah Valentin (TETIS, Univ. Montpellier, AgroParisTech, CIRAD, CNRS, INRAE)

 

  • 17h15 : Remise du prix et clôture de l’atelier

 par Pascal Cuxac (Inist-CNRS) et Cédric Lopez (Emvista)

 

 

**********************

 

 

Format de l’atelier :

L'objectif de cet atelier est de favoriser des présentations et des discussions. Peuvent être soumis :

  • des résumés étendus (4 pages)
  • des articles longs (maximum 12 pages)
  • des propositions de démonstration logicielles (4 pages)
  • dans le cadre du défi, les participants peuvent optionnellement soumettre des articles courts (2 pages) à remettre au plus tard le 15 novembre. Ces articles seront relus par le comité, les meilleurs participants auront la possibilité d'étendre leur article court à 12 pages pour publication dans les actes de TextMine.

Les contributions seront publiées sous forme d'actes en ligne. La soumission de prises de position bien articulées, d'expériences industrielles et de travaux en cours sont les bienvenus et privilégiés. Des contributions portant sur l'intérêt pratique des travaux, qu'elles viennent de l'industrie ou du monde académique, ou présentant des collaborations entre les deux seraient appréciées. Le but est le partage d'expérience et de savoir sur les problématiques liées à la
fouille de textes. Pour les démonstrations une présentation orale aménagée devra être préparée (temps de présentation plus court, et temps pour effectuer la démo sur projecteur en fin de présentation). Un temps sera prévu dans le programme pour les démos.
 


Principaux thèmes (liste non limitative) :

  • Méthodes de traitement automatique de la langue (TAL)
  • Classifications statiques de textes
  • Classifications dynamiques de textes
  • Méthodes d'apprentissage
  • Approches par graphes
  • Recherche d'information
  • Indexation
  • Détection d'entités nommées
  • Résumé automatique
  • Détection de nouveautés
  • Analyse de sentiments
  • Les bots ou systèmes de dialogues
  • ...

Liste des domaines d'application (liste non limitative) :

  • Fouille de documents scientifiques
  • Données médicales
  • Brevets
  • Analyse d'opinions
  • Media sociaux (Twitter…)
  • Veille scientifiques
  • Intelligence économique
  • Appui au pilotage scientifique
  • Bibliométrie
  • Systèmes (à base) de dialogues
  • ...

Public cible : Tout public : universitaires, organismes de recherche, industriels,...

 


 

Format à utiliser pour les articles 

 

Le format RNTI Latex de la conférence EGC doit être utilisé : https://www.editions-rnti.fr/files/RNTI-202208.zip

 


 

Dates importantes (dates prévisionnelles) :

  • Date limite de soumission des articles courts dans le cadre du défi
    (voir plus haut) : 15/11/2023
  • Date limite de soumission des articles (hors défi) : 11/12/2023
  • Notification aux auteurs : 31/12/2023
  • Version finale : 12/01/2024
  • Atelier : 23/01/2024

 Les soumissions doivent être faites sur Easychair :  https://easychair.org/conferences/?conf=textmine24

 


 Proceedings: à venir


 Contacts:

Pascal Cuxac  INIST - CNRS ; e-mail : pascal.cuxac[at]inist.fr
Cédric Lopez Emvista ; e-mail :cedric.lopez[at]emvista.com


 Comité de programme envisagé (en cours d'élaboration, ordre alphabétique):

  • à venir

 Tarifs d'inscription

La participation à l'atelier seul (avec repas du midi) ou avec la conférence principale est définie par EGC. Les inscriptions à TextMine'24 se font sur le site de la conférence EGC : https://inscription.egc.asso.fr/event/egc2024/ 

Personnes connectées : 3 Vie privée
Chargement...