|
|
Défi TextMine'24Challenge TextMine 2024 : "Reconnaissance d’entités géographiques dans un corpus des Instructions nautiques"Organisé par :
sur Kaggle : https://www.kaggle.com/competitions/defi-textmine-2024 Contact : textmine@sciencesconf.org ContexteLe 21 octobre 2022, l'association Extraction et Gestion des Connaissances (EGC) a lancé le groupe de travail TextMine (https://textmine.sciencesconf.org/). Dans le cadre de ce groupe de travail, un objectif est de confronter l'état de l'art scientifique aux problèmes de text mining rencontrés par des industriels. Sous la forme de défis, le groupe de travail propose des jeux de données inédits et les partage avec la communauté scientifique. Le premier défi du groupe de travail TextMine a été lancé le 21 octobre en étroite collaboration avec la société Emvista, éditrice de logiciels fondés sur des technologies du Traitement Automatique du Langage Naturel, qui a fourni une partie des données. Cinq participants ont partagé leurs expériences lors de l’atelier TextMine’23 qui s’est tenu à Lyon (https://textmine.sciencesconf.org/resource/page/id/4). Pour cette deuxième édition, l’Institut national de l'information géographique et forestière (IGN) et le Service hydrographique et océanographique de la Marine (Shom) proposent de relever le défi de la reconnaissance d’entités spatiales nommées et non nommées à deux niveaux dans les Instructions nautiques, une série d’ouvrages publiée par le Shom. Chaque volume décrit l'environnement maritime côtier d’une zone géographique et donne aux navigateurs les informations nécessaires pour naviguer près des côtes et accéder aux ports en sécurité. Les zones géographiques couvertes par les Instructions nautiques sont réparties autour du monde entier. Le corpus pour ce défi est constitué d’extraits de 15 volumes des Instructions nautiques, annotés selon 3 labels. Il compte au total 66030 tokens et 18537 labels, dont une partie est proposée pour l’apprentissage et l’autre réservée pour le test. Les 3 labels utilisées pour les annotations sont définies de la manière suivante :
Chaque token peut recevoir entre 0 et 2 labels. Le jeu de données est annoté avec les 5 classes qui combinent les labels, mentionnées dans le tableau ci-dessous.
Un guide d’annotation détaillé est à disposition des participants sur Kaggle. Le classement final sera déterminé selon deux jeux de tests : un jeu de test “public” couvrant une zone géographique présente dans le jeu d’entraînement et un jeu de test “privé” couvrant une zone géographique absente du jeu d’entraînement et du jeu de test public. Voir section Data.
Dates importantes23 janvier 2024 : Présentations des travaux et attribution du prix 10 janvier 2024 : Date limite de l’envoi de la version finale des articles “défi” 15 décembre 2023 : Notifications aux auteurs 15 novembre 2023 : Date limite de soumission des articles “défi” pour une publication dans les actes 15 novembre 2023 : Fermeture de la plateforme Kaggle + révélation du jeu de test “private” Mai 2023 : Ouverture du défi sur la plateforme Kaggle
Participer
DataLe jeu de données fourni dans le cadre de ce défi TextMine’24 est constitué de données extraites des Instructions nautiques qui sont la propriété du Shom (copyright Shom 2023). L’usage de ces données est limité aux seules fins du Défi TextMine 2024, organisé par le groupe de travail TextMine. Le jeu de données est découpé en un jeu d’entraînement et de deux jeux de test “public” et “private”. Le jeu de test “public” couvre une zone géographique présente dans le jeu d’entraînement et le jeu de test “privé” est un jeu de test privé et jamais vu, couvrant une zone géographique absente du jeu d’entraînement. Le jeu d’entraînement contient 39857 tokens. Le jeu de test public contient 26173 tokens. Les jeux de données sont accessibles sur la plateforme Kaggle : https://www.kaggle.com/competitions/defi-textmine-2024
EvaluationL’évaluation donnera lieu à un score S qui permettra de classer les participants. Le prix sera décerné au participant dont le système aura obtenu le plus haut score S selon la formule suivante : S = A + B avec :
Par exemple, si A = 0,75 et que le code est mis à disposition publiquement sur Github alors S = A + B = 0,75 + 0,0375 = 0,7875.
CiterH. Rawsthorne, N. Abadie, A. Guille, P. Cuxac, V. Lemaire, C. Lopez (2024) Défi TextMine’24 - Reconnaissance d’entités géographiques dans un corpus des Instructions nautiques. Actes de l'atelier TextMine'24, p. à paraître, Conférence Extraction et Gestion des Connaissances 2024 (EGC'24), Dijon.
|
Personnes connectées : 2 | Vie privée |