|
|
Défi TextMine'25Défi TextMine 2025Extraction de relations pour l’analyse des rapports de renseignementKaggle : https://www.kaggle.com/competitions/defi-text-mine-2025/overview NB : Pour toutes questions relatives au défi, merci d’envoyer un e-mail à l’adresse suivante : textmine@sciencesconf.org
Les gagnants du défi TextMine’24 !
ContexteLe défi de cette troisième édition de TextMine est proposé par Airbus Defence and Space. Il vise à comparer les différentes approches scientifiques et techniques des secteurs publics et privés pour extraire des informations métiers des rapports de renseignement. Plus précisément, le défi se focalise sur la tâche d’extraction de relations entre des éléments textuels. Dans le domaine du renseignement et de la défense, l'analyse de rapports est cruciale pour comprendre les relations complexes entre les différents acteurs, événements et leurs caractéristiques. L’extraction de relations est encore aujourd’hui un verrou scientifique et par conséquent nécessite un traitement manuel important. Dans le cadre du défi TextMine’25, les données fournies sont des rapports de renseignement factices. Ces rapports factices ont été conçus dans le cadre du projet POPCORN (Emvista, Airbus, LIG) partiellement financé par l’Agence de l’Innovation de Défense et la Direction Générale de l’Armement. Les rapports mis à disposition dans le cadre de ce défi constituent une extension à un corpus qui sera officiellement rendu public en septembre 2024 (Giordano et al. 2024).
Giordano et al. 2024. POPCORN: Fictional and Synthetic Intelligence Reports for NamedEntity Recognition and Relation Extraction Tasks. In proceedings of KES’24, to appear.
Les donnéesPour s’attaquer à cette tâche, les participants au défi auront à leur disposition 800 documents factices rédigés et annotés manuellement. Les données d’entrée sont : un texte, les mentions et le type des entités ainsi que des attributs. Les annotations sont données sous la forme de deux listes. Une première liste contenant l’ensemble des entités et des attributs définies par un index, un ensemble de mentions avec leurs offsets et un type. La seconde liste (donnée seulement pour les textes d’entraînement) contient la liste de relations sous la forme (index de l’entité sujet, type de la relation, index de l’entité objet). Au total, une quarantaine de types d’entités, une quinzaine de types d’attributs et une quarantaine de types de relations sont annotées dans le jeu de données.
La tâcheLa tâche consiste à identifier les relations et à leur attribuer une étiquette parmi 37 étiquettes telles que Located in, Part Of, etc. La liste et les définitions des types d’entités, d’attributs et de relations peuvent être retrouvées dans les trois tableaux ci-dessous.
L’évaluationUn ensemble d’évaluation composé de 400 textes permettra aux équipes d’évaluer et confronter leurs solutions en soumettant jusqu’à 1 résultat par jour sur la plateforme Kaggle. L’adéquation des prédictions avec les labels du jeu de test sera calculée automatiquement par la plateforme Kaggle en utilisant le score Macro F1 (moyenne du score F1 pour chaque type de relation). Le format de soumission attendu est le même que celui des données d’entraînement.
L’évaluation donnera lieu à un score S qui permettra de classer les participants. Le premier prix sera décerné au participant dont le système aura obtenu le plus haut score S selon la formule suivante : S = A + B avec :
Par exemple, si A = 0,75 et que le code est mis à disposition publiquement sur Github alors S = A + B = 0,75 + 0,0375 = 0,7875.
Les prixDes prix seront remis lors de la conférence EGC’25 dont un chèque d’un montant de 500 euros !
Participer
Dates importantes27 ou 28 janvier 2025 (à Strasbourg) : Présentations des travaux et attribution des prix 10 janvier 2025 : Date limite de l’envoi de la version finale des articles “défi” 13 décembre 2024 : Notifications aux auteurs 20 novembre 2024 : Date limite de soumission des articles “défi” pour une publication dans les actes 15 novembre 2024 : Fermeture de la plateforme Kaggle 17 janvier 2024 : Date limite de mise à disposition du code. Le lien vers le code peut être mis dans l'article si un article est Juin 2024 : Ouverture du défi sur la plateforme Kaggle : https://www.kaggle.com/competitions/defi-text-mine-2025/overview
CiterPrieur M., Gadek G., H. Rawsthorne, A. Guille, P. Cuxac, C. Lopez (2025) Défi TextMine’25 -Extraction de relations pour analyser des rapports de renseignement. Actes de l'atelier TextMine'25, p. à paraître, Extraction et Gestion des Connaissances 2025 (EGC'25).
Comité d’organisation :
|
Personnes connectées : 2 | Vie privée |