République
Française
Le dataset DigiLut a été conçu dans le cadre d'un data challenge semi-supervisé visant à développer des algorithmes de détection et de localisation des lésions de type A sur des lames d'anatomopathologie de biopsies transbronchiques pulmonaires.
L'objectif principal du projet DigiLut est de créer un algorithme d'aide à la décision thérapeutique capable de consolider le diagnostic des épisodes de rejet du greffon dans le cadre d'une transplantation pulmonaire. Ce système se base sur l'analyse d'images numérisées de biopsies de greffon pulmonaire et vise à identifier les signes caractéristiques du rejet, notamment les infiltrats périvasculaires de mononucléaires (lésions de type A).
L’Hôpital Foch a pris l’initiative et la responsabilité de réaliser une recherche sur données (recherche ne répondant pas à la définition de recherche impliquant la personne humaine au sens de l’article L1221-1 du code de la santé publique) dont l’intitulé est Digitalization of transbronchique biopsies in Lung Transplantation dont l’acronyme est « DigiLut » (ci-après le « Projet »).
L’objectif du projet DigiLut est de créer un algorithme d’aide à la décision thérapeutique qui permettra de consolider le diagnostic des épisodes de rejet du greffon dans le cadre d’une transplantation pulmonaire, à partir d’une banque d’image de biopsies de greffon numérisées. Cette approche innovante permettra d’améliorer le diagnostic de rejet et la prise en charge des patients transplantés pulmonaires.
Ce défi est organisé par l’Hôpital Foch en partenariat avec le Health Data Hub et financé par la Banque Publique d’Investissement (Bpifrance). Le défi est sponsorisé par le Grand Défi "Amélioration des diagnostics médicaux par l'intelligence artificielle" sous l’égide du Secrétariat Général Français pour l'investissement.
La base de données anonymisée construite à partir de lames de biopsie de patients transplantés pulmonaire à Foch, numérisées par l’équipe INSERM U970 (Paris Transplant Group) comprend des annotations des zones d'intérêt, créées par un panel international d'une quinzaine experts pathologistes. Cette base de données est mise à votre disposition.
On peut trouver un ensemble de données supplémentaire issues des dossiers médicaux des patients, pouvant aider à effectuer un apprentissage par transfert, qui cartographie la présence ou l'absence de lésion pour chacune des lésions où selon l’intensité des lésions et leur extension à l’interstitium, on distingue différents grades de rejet aigu cellulaire (RAC) : grade A0 (absence de rejet) à A4 (lésion sévères).
Pour rappel, 378/500 images ont été annotées par un panel d’une quinzaine d’anatomopathologistes experts du sujet. Ce jeu de données de 500 lames constitue un échantillon du jeu de données total de l’Hôpital Foch.
Les images qui contiennent au moins une boîte englobante (bounding box) contiennent au moins une lésion (= rejet de greffe).
Les données ont été scindé de façon à avoir des jeux de données de taille équivalente tout en répartissant les cas selon s’il s’agit de “Routine” et trois jeux de données “Entraînement”. Les images définies comme annotées et ne présentant pas d’annotations correspondent à des cas A0, c’est-à-dire sans lésion.
- Vous trouverez un fichier .csv contenant le nom de la lame digitalisée, associée à son grade et à l’annotation si elle existe
- Associé à un fichier .tif contenant l’image de lame digitalisée
Détail des données et des champs:
1/ Dataset : annoté et non annoté
2/ Name : Nom de la lame
3/ Annotation :
3.1/ Peri. mono. infiltr. (A Grade)
3.2/ Possible A Grade
4/ GRADE (ou séverité) : présence ou absence de lésion (et séverité). Valeurs possibles :
4.1/ A1, A1+, A2 correspondent à la présence d'au moins une lésion dans au moins un des 8 niveaux de l'image donnée (sur la diapositive _a.tif ou sur la diapositive _b.tif ou sur les deux).
4.2/ A0 correspond à l'absence de lésion dans l'image donnée (ni sur la diapositive _a.tif ni sur la diapositive _b.tif).
NB: A0+ et A1- correspondent à une suspicion de lésion dans l'image donnée
Les participants peuvent utiliser diverses stratégies pour utiliser les données non annotées, y compris :
- Transfer Learning : Pré-entraînement d'un modèle sur l'ensemble de données non annotées, puis affinage sur l'ensemble de données annotées.
- Clustering: Identifier des groupes d'images ou des régions d'images qui partagent des caractéristiques similaires à l'aide de techniques de regroupement.
- Anomaly Detection : Entraînement d'un modèle de détection d'anomalies sur des données non annotées afin d'identifier les déviations suggérant des lésions.
- Autoencoders : Utiliser des autoencodeurs pour apprendre des représentations compressées d'images, qui peuvent ensuite être utilisées comme caractéristiques d'entrée pour un modèle de classification ou de détection.
- Data Augmentation : Appliquer des transformations pour créer un ensemble de données augmenté, en augmentant la variabilité et la quantité des données d'entraînement.
Ensemble Learning : Entraîner plusieurs modèles sur différents sous-ensembles de données non annotées, puis les combiner pour améliorer les performances de détection.
Creative Commons Attribution (CC BY)