Groupe de Travail de l'association EGC - https://www.egc.asso.fr/

Défi TextMine'24

Defi_TextMine_24.jpg

Challenge TextMine 2024 : "Reconnaissance d’entités géographiques dans un corpus des Instructions nautiques"

Organisé par : 

  • Helen Mair Rawsthorne, LASTIG, Univ Gustave Eiffel, IGN-ENSG

  • Nathalie Abadie, LASTIG, Univ Gustave Eiffel, IGN-ENSG

  • Adrien Guille, Université Lumière Lyon 2, Laboratoire ERIC

  • Pascal Cuxac, INIST-CNRS

  • Vincent Lemaire, Orange Labs

  • Cédric Lopez, Emvista

 sur Kaggle : https://www.kaggle.com/competitions/defi-textmine-2024

Contact : textmine@sciencesconf.org 

Contexte

Le 21 octobre 2022, l'association Extraction et Gestion des Connaissances (EGC) a lancé le groupe de travail TextMine (https://textmine.sciencesconf.org/). Dans le cadre de ce groupe de travail, un objectif est de confronter l'état de l'art scientifique aux problèmes de text mining rencontrés par des industriels. Sous la forme de défis, le groupe de travail propose des jeux de données inédits et les partage avec la communauté scientifique. Le premier défi du groupe de travail TextMine a été lancé le 21 octobre en étroite collaboration avec la société Emvista, éditrice de logiciels fondés sur des technologies du Traitement Automatique du Langage Naturel, qui a fourni une partie des données. Cinq participants ont partagé leurs expériences lors de l’atelier TextMine’23 qui s’est tenu à Lyon (https://textmine.sciencesconf.org/resource/page/id/4).

Pour cette deuxième édition, l’Institut national de l'information géographique et forestière (IGN) et le Service hydrographique et océanographique de la Marine (Shom) proposent de relever le défi de la reconnaissance d’entités spatiales nommées et non nommées à deux niveaux dans les Instructions nautiques, une série d’ouvrages publiée par le Shom. Chaque volume décrit l'environnement maritime côtier d’une zone géographique et donne aux navigateurs les informations nécessaires pour naviguer près des côtes et accéder aux ports en sécurité. Les zones géographiques couvertes par les Instructions nautiques sont réparties autour du monde entier. Le corpus pour ce défi est constitué d’extraits de 15 volumes des Instructions nautiques, annotés selon 3 labels. Il compte au total 66030 tokens et 18537 labels, dont une partie est proposée pour l’apprentissage et l’autre réservée pour le test. Les 3 labels utilisées pour les annotations sont définies de la manière suivante :

  • name : Pour les noms propres purs (Moncla 2015). Par exemple :

    • À 8 M à l’ENE du phare de Nadji, le port de pêche de Sidi Abderrahmane (36° 29,7' N — 1° 05,7' E) est construit au bord du village de Soug el Bgar (pointe Rouge).

 

  • geogFeat : Pour les noms communs qui identifient une caractéristique géographique(Moncla 2015). Par exemple :

    • À 8 M à l’ENE du phare de Nadji, le port de pêche de Sidi Abderrahmane (36° 29,7' N — 1° 05,7' E) est construit au bord du village de Soug el Bgar (pointe Rouge).

 

  • geogName : Pour le nom associé à une caractéristique géographique (Moncla 2015). Par exemple :

    • À 8 M à l’ENE du phare de Nadji, le port de pêche de Sidi Abderrahmane (36° 29,7' N — 1° 05,7' E) est construit au bord du village de Soug el Bgar (pointe Rouge).

Chaque token peut recevoir entre 0 et 2 labels. 

Le jeu de données est annoté avec les 5 classes qui combinent les labels, mentionnées dans le tableau ci-dessous.

 

Etiquette

Nombre d’annotations dans le jeu d'entraînement

geogFeat

4167

geogFeat geogName

1469

geogName

4490

name

2118

name geogName

2123

tokens sans label

32668

 

Un guide d’annotation détaillé est à disposition des participants sur Kaggle.

Le classement final sera déterminé selon deux jeux de tests : un jeu de test “public” couvrant une zone géographique présente dans le jeu d’entraînement et un jeu de test “privé” couvrant une zone géographique absente du jeu d’entraînement et du jeu de test public. Voir section Data.

 

Dates importantes

23 janvier 2024 : Présentations des travaux et attribution du prix

10 janvier 2024 : Date limite de l’envoi de la version finale des articles “défi”

15 décembre 2023 : Notifications aux auteurs

15 novembre 2023 : Date limite de soumission des articles “défi” pour une publication dans les actes

15 novembre 2023 : Fermeture de la plateforme Kaggle + révélation du jeu de test “private”

Mai 2023 : Ouverture du défi sur la plateforme Kaggle

 

Participer

  1. Chaque personne qui souhaite participer doit s’inscrire sur la plateforme Kaggle : https://www.kaggle.com/competitions/defi-textmine-2024

  2. Les personnes inscrites sur la plateforme Kaggle peuvent se regrouper en équipe

  3. Accédez à la compétition “Challenge TextMine 2024”. Vous y trouverez :

    1. Dans Data, les jeux de données pour entraîner et tester votre modèle.

    2. Les Notebooks, quisont votre espace de travail. Ils contiennent des tutoriels, des articles de blog, de la documentation. Ils peuvent également exécuter du code sans que vous n'installiez quoi que ce soit.

    3. Dans Discussion, un espace d’échange pour communiquer avec d'autres personnes qui participent au concours, poser des questions et donner des conseils.

    4. Dans le Leaderboard, le score des participants au concours.

    5. Dans Rules, les règles de la compétition.

      1. Les données extraites des Instructions nautiques sont la propriété du Shom (copyright Shom 2023). L’usage de ces données est limité aux seules fins du Défi TextMine 2024, organisé par le groupe de travail TextMine ;

      2. Toute participation au défi implique une proposition d’article à l’atelier TextMine qui a lieu chaque année en janvier/février : https://textmine.sciencesconf.org/ ; sans proposition sérieuse d’article, le participant/l’équipe sera disqualifié(e) ; le participant/équipe devra être présent à l’atelier pour présenter son travail.

      3. Toute approche est la bienvenue (par exemple connexionniste, symbolique, à base de connaissances) ;

      4. Chaque participant doit utiliser un unique compte Kaggle pour faire des soumissions. Chaque participant sera disqualifié s’il fait des soumissions via plus d'un compte Kaggle, ou s’il tente de falsifier un compte pour agir en tant que mandataire. 

      5. Plusieurs personnes peuvent collaborer en tant qu'équipe ; cependant, vous ne pouvez rejoindre ou former qu'une seule équipe. 

      6. La taille limite des équipes est fixée à 10 personnes ;

      7. Vous pouvez envoyer 5 soumissions par jour.

      8. Le partage privé de code ou de données en dehors des équipes n'est pas autorisé. Vous pouvez partager du code s'il est mis à la disposition de tous les participants sur les forums ;

      9. Vous devez sélectionner une unique soumission finale pour le classement définitif ;

      10. Vous n’êtes pas autorisé.e à annoter à la main ;

      11. Vous n’êtes pas autorisé.e à utiliser des données annotées dans le domaine des Instructions nautiques autres que celles fournies dans le cadre du défi.

      12. Vous devez avoir plus de 18 ans ;

      13. Vous avez la possibilité de partager votre code publiquement à condition que ce partage public ne viole pas les droits de propriété intellectuelle d'un tiers. Si vous décidez de partager votre code, nous vous suggérons d'utiliser Github (https://github.com/). Pour tout autre outil, merci de vous mettre en contact avec les organisateurs.

      14. Chaque soumission sera notée et classée selon la métrique d'évaluation indiquée dans la section Evaluation. Les résultats seront visibles sur le leaderboard de Kaggle.

Data

Le jeu de données fourni dans le cadre de ce défi TextMine’24 est constitué de données extraites des Instructions nautiques qui sont la propriété du Shom (copyright Shom 2023). L’usage de ces données est limité aux seules fins du Défi TextMine 2024, organisé par le groupe de travail TextMine.

Le jeu de données est découpé en un jeu d’entraînement et de deux jeux de test “public” et “private”. Le jeu de test “public” couvre une zone géographique présente dans le jeu d’entraînement et le jeu de test “privé” est un jeu de test privé et jamais vu,  couvrant une zone géographique absente du jeu d’entraînement.

Le jeu d’entraînement contient 39857 tokens.

Le jeu de test public contient  26173 tokens.

Les jeux de données sont accessibles sur la plateforme Kaggle : https://www.kaggle.com/competitions/defi-textmine-2024 

 

Evaluation

L’évaluation donnera lieu à un score S qui permettra de classer les participants. Le prix sera décerné au participant dont le système aura obtenu le plus haut score S selon la formule suivante : S = A + B avec :

  • A : la micro F-mesure qui tient compte du support de chaque classe de chacun des jeux de tests décrits dans la section précédente. 

  • B : ouverture du code source. Si un participant rend public son code (via un Github par exemple, ou un .zip qui sera téléchargeable à partir du site Web de TextMine) alors B = 5*A/100 sinon 0.

Par exemple, si A = 0,75 et que le code est mis à disposition publiquement sur Github alors S = A + B = 0,75 + 0,0375 = 0,7875.

 

Citer

H. Rawsthorne, N. Abadie, A. Guille, P. Cuxac, V. Lemaire, C. Lopez (2024) Défi TextMine’24 - Reconnaissance d’entités géographiques dans un corpus des Instructions nautiques. Actes de l'atelier TextMine'24, p. à paraître, Conférence Extraction et Gestion des Connaissances 2024 (EGC'24), Dijon.

 

Personnes connectées : 2 Vie privée
Chargement...