|
|
Atelier TextMine'24
Programme de l'atelier TextMine'24 23 janvier 2024 (Dijon, France)
Actes de l'atelier TextMine'24 du 23 janvier 2024 : Télécharger les actes
par Pascal Cuxac (Inist-CNRS) et Cédric Lopez (Emvista)
par Imen Ben Sassi (LIRMM, Université de Montpellier, CNRS)
par Kévin Cousot (Emvista)
par Alexandre Clausse (Université Toulouse III – Paul Sabatier, IRIT UMR 5505 CNRS)
par Oussama Mechhour (CIRAD, UPR AIDA & UMR TETIS)
par notre conférencière invitée Iana Atanassova (Université de Franche-Comté, directrice du CRIT / Institut Universitaire de France (IUF)) Résumé : Dans cette présentation nous aborderons la problématique de la fouille de corpus scientifiques en différentes disciplines et en plein texte. Nous montrerons des résultats de l'annotation sémantique de corpus et l'extraction d'informations, par l'application d'approches fondées sur les ressources linguistiques qui seront mis en perspective avec des méthodes par apprentissage. Nous nous intéressons en particulier à la notion d'incertitude scientifique et à la possibilité de l'identifier et la catégoriser dans les textes des publications. Nous aborderons également la problématique du multilinguisme dans les articles à travers une étude de corpus.
12h30 - 14h00 : PAUSE DÉJEUNER
par notre conférencier invité Mohamed Chetouani (dir. scientifique chez Batvoice Technologies)
Résumé : L'importance cruciale des données dans le développement de l'intelligence artificielle met en lumière le rôle essentiel de l'annotation, une intervention humaine sur les données. Cette intervention peut prendre diverses formes telles que l'étiquetage, la segmentation, la description, l'évaluation ou la transcription de données. Les progrès significatifs dans le domaine de l'IA sont attribuables à la disponibilité de données de qualité annotées. L'annotation est considérée comme une étape clé dans la conception de systèmes d'IA, et de nombreux outils d'annotation sont disponibles pour les domaines académiques et non académiques. Cependant, l'utilisation de plusieurs outils spécifiques pour différentes tâches d'annotation sur des données hétérogènes présente des défis. La présentation examine divers outils d'annotation, se concentrant sur des critères tels que l'ouverture, la disponibilité en ligne, la maintenance et la personnalisation. Cette analyse révèle certaines limitations des outils actuels, telles que la difficulté de définir et de partager des stratégies d'annotation, le manque de transparence dans la gestion des données et les défis liés à la charge de travail des annotateurs. En réponse à ces défis, la présentation introduit l'outil Labelit, un outil ouvert (https://github.com/voicelab-org/labelit) et en ligne initialement développé pour les besoins de Batvoice. Labelit facilite les campagnes d'annotation de tâches multiples sur des données audio, en particulier des appels téléphoniques, en assurant une gestion contrôlée des données et de la charge de travail des annotateurs. L'outil tire parti de technologies logicielles récentes, offrant une adaptabilité efficace à de nouvelles tâches, des changements de stratégie d'annotation et à l'annotation de données hétérogènes. Des cas d'utilisation illustreront les fonctionnalités de Labelit au cours de la présentation.
par Saber Zahhar
par Philippe Suignard (EDF R&D)
par Helen Mair Rawsthorne (LASTIG, Univ Gustave Eiffel, IGN-ENSG)
par Pauline Armary (CIAD, UMR 7533, Université de Bourgogne, UB)
par Nicolas Gutehrlé (Université de Franche-Comté, CRIT)
par Oussama Ahmia (OctopusMind)
par Lucas Anki (Inist-CNRS)
par Sarah Valentin (TETIS, Univ. Montpellier, AgroParisTech, CIRAD, CNRS, INRAE)
par Pascal Cuxac (Inist-CNRS) et Cédric Lopez (Emvista)
**********************
Format de l’atelier : L'objectif de cet atelier est de favoriser des présentations et des discussions. Peuvent être soumis :
Les contributions seront publiées sous forme d'actes en ligne. La soumission de prises de position bien articulées, d'expériences industrielles et de travaux en cours sont les bienvenus et privilégiés. Des contributions portant sur l'intérêt pratique des travaux, qu'elles viennent de l'industrie ou du monde académique, ou présentant des collaborations entre les deux seraient appréciées. Le but est le partage d'expérience et de savoir sur les problématiques liées à la Principaux thèmes (liste non limitative) :
Liste des domaines d'application (liste non limitative) :
Public cible : Tout public : universitaires, organismes de recherche, industriels,...
Format à utiliser pour les articles
Le format RNTI Latex de la conférence EGC doit être utilisé : https://www.editions-rnti.fr/files/RNTI-202208.zip
Dates importantes (dates prévisionnelles) :
Les soumissions doivent être faites sur Easychair : https://easychair.org/conferences/?conf=textmine24
Pascal Cuxac INIST - CNRS ; e-mail : pascal.cuxac[at]inist.fr Comité de programme envisagé (en cours d'élaboration, ordre alphabétique):
Tarifs d'inscription |
Personnes connectées : 2 | Vie privée |