Groupe de Travail de l'association EGC - https://www.egc.asso.fr/

Défi TextMine'25

Défi TextMine 2025

Extraction de relations pour l’analyse des rapports de renseignement 

Kaggle : https://www.kaggle.com/competitions/defi-text-mine-2025/overview 

NB : Pour toutes questions relatives au défi, merci d’envoyer un e-mail à l’adresse suivante :  textmine@sciencesconf.org 

Les gagnants du défi TextMine’24 !

 

Contexte

Le défi de cette troisième édition de TextMine est proposé par Airbus Defence and Space. Il vise à comparer les différentes approches scientifiques et techniques des secteurs publics et privés pour extraire des informations métiers des rapports de renseignement. Plus précisément, le défi se focalise sur la tâche d’extraction de relations entre des éléments textuels.

Dans le domaine du renseignement et de la défense, l'analyse de rapports est cruciale pour comprendre les relations complexes entre les différents acteurs, événements et leurs caractéristiques. L’extraction de relations est encore aujourd’hui un verrou scientifique et par conséquent nécessite un traitement manuel important. 

Dans le cadre du défi TextMine’25, les données fournies sont des rapports de renseignement factices. Ces rapports factices ont été conçus dans le cadre du projet POPCORN (Emvista, Airbus, LIG) partiellement financé par l’Agence de l’Innovation de Défense et la Direction Générale de l’Armement. Les rapports mis à disposition dans le cadre de ce défi constituent une extension à un corpus qui sera officiellement rendu public en septembre 2024 (Giordano et al. 2024).

 

Giordano et al. 2024. POPCORN: Fictional and Synthetic Intelligence Reports for NamedEntity Recognition and Relation Extraction Tasks. In proceedings of KES’24, to appear.

 

 

Les données

Pour s’attaquer à cette tâche, les participants au défi auront à leur disposition 800 documents factices rédigés et annotés manuellement. Les données d’entrée sont : un texte, les mentions et le type des entités ainsi que des attributs. Les annotations sont données sous la forme de deux listes. Une première liste contenant l’ensemble des entités et des attributs définies par un index, un ensemble de mentions avec leurs offsets et un type. La seconde liste (donnée seulement pour les textes d’entraînement) contient la liste de relations sous la forme (index de l’entité sujet, type de la relation, index de l’entité objet).

Au total, une quarantaine de types d’entités, une quinzaine de types d’attributs et une quarantaine de types de relations sont annotées dans le jeu de données.

 

La tâche

La tâche consiste à identifier les relations et à leur attribuer une étiquette parmi 37 étiquettes telles que Located in, Part Of, etc.  La liste et les définitions des types d’entités, d’attributs et de relations peuvent être retrouvées dans les trois tableaux ci-dessous.

 

L’évaluation

Un ensemble d’évaluation composé de 400 textes permettra aux équipes d’évaluer et confronter leurs solutions en soumettant jusqu’à 1 résultat par jour sur la plateforme Kaggle. L’adéquation des prédictions avec les labels du jeu de test sera calculée automatiquement par la plateforme Kaggle en utilisant le score Macro F1 (moyenne du score F1 pour chaque type de relation). Le format de soumission attendu est le même que celui des données d’entraînement.

 

L’évaluation donnera lieu à un score S qui permettra de classer les participants. Le premier prix sera décerné au participant dont le système aura obtenu le plus haut score S selon la formule suivante : S = A + B avec :

  • A : la Macro F1  (moyenne du score F1 pour chaque type de relation).

  • B : ouverture du code source. Si un participant rend public son code (via un Github par exemple, ou un .zip qui sera téléchargeable à partir du site Web de TextMine) alors B = 5*A/100 sinon 0.

Par exemple, si A = 0,75 et que le code est mis à disposition publiquement sur Github alors S = A + B = 0,75 + 0,0375 = 0,7875.

 

Les prix

Des prix seront remis lors de la conférence EGC’25 dont un chèque d’un montant de 500 euros !

 

 Participer

  1. Chaque personne qui souhaite participer doit s’inscrire sur la plateforme Kaggle : 

  2. Les personnes inscrites sur la plateforme Kaggle peuvent se regrouper en équipe

  3. Accédez à la compétition “Challenge TextMine 2025”. Vous y trouverez :

    1. Dans Data, les jeux de données pour entraîner et tester votre modèle.

    2. Les Notebooks, quisont votre espace de travail. Ils contiennent des tutoriels, des articles de blog, de la documentation. Ils peuvent également exécuter du code sans que vous n'installiez quoi que ce soit.

    3. Dans Discussion, un espace d’échange pour communiquer avec d'autres personnes qui participent au concours, poser des questions et donner des conseils.

    4. Dans le Leaderboard, le score des participants au concours.

    5. Dans Rules, les règles de la compétition.

      1. Toute participation au défi implique une proposition d’article à l’atelier TextMine qui a lieu chaque année en janvier : https://textmine.sciencesconf.org/ ; sans proposition sérieuse d’article, le participant/l’équipe sera disqualifié(e) ; le participant/équipe devra être présent à l’atelier pour présenter son travail.

      2. Toute approche est la bienvenue (par exemple connexionniste, symbolique, à base de connaissances) ;

      3. Chaque participant doit utiliser un unique compte Kaggle pour faire des soumissions. Chaque participant sera disqualifié s’il fait des soumissions via plus d'un compte Kaggle, ou s’il tente de falsifier un compte pour agir en tant que mandataire. 

      4. Plusieurs personnes peuvent collaborer en tant qu'équipe ; cependant, vous ne pouvez rejoindre ou former qu'une seule équipe. 

      5. La taille limite des équipes est fixée à 10 personnes ;

      6. Vous pouvez envoyer 1 soumission par jour.

      7. Le partage privé de code ou de données en dehors des équipes n'est pas autorisé. Vous pouvez partager du code s'il est mis à la disposition de tous les participants sur les forums ;

      8. Vous devez sélectionner au maximum 2 soumissions finales pour le classement définitif ;

      9. Vous n’êtes pas autorisé.e à annoter à la main ;

      10. Vous devez avoir plus de 18 ans ;

      11. Vous avez la possibilité de partager votre code publiquement à condition que ce partage public ne viole pas les droits de propriété intellectuelle d'un tiers. Si vous décidez de partager votre code, nous vous suggérons d'utiliser Github (https://github.com/). Pour tout autre outil, merci de vous mettre en contact avec les organisateurs.

      12. Chaque soumission sera notée et classée selon la métrique d'évaluation indiquée dans la section Évaluation. Les résultats seront visibles sur le leaderboard de Kaggle.

 

Dates importantes

27 ou 28 janvier 2025 (à Strasbourg) : Présentations des travaux et attribution des prix

10 janvier 2025 : Date limite de l’envoi de la version finale des articles “défi”

13 décembre 2024 : Notifications aux auteurs

20 novembre 2024 : Date limite de soumission des articles “défi” pour une publication dans les actes

15 novembre 2024 : Fermeture de la plateforme Kaggle 

17 janvier 2024 : Date limite de mise à disposition du code. Le lien vers le code peut être mis dans l'article si un article est
prévu, sinon vous pouvez simplement fournir le lien aux organisateurs par e-mail (textmine@sciencesconf.org) et les organisateurs le publieront sur le site.

Juin 2024 : Ouverture du défi sur la plateforme Kaggle : https://www.kaggle.com/competitions/defi-text-mine-2025/overview 

 

 

Citer

Prieur M., Gadek G., H. Rawsthorne, A. Guille, P. Cuxac, C. Lopez (2025) Défi TextMine’25 -Extraction de relations pour analyser des rapports de renseignement. Actes de l'atelier TextMine'25, p. à paraître, Extraction et Gestion des Connaissances 2025 (EGC'25).

 

Comité d’organisation : 

Personnes connectées : 2 Vie privée
Chargement...