Série de datamarts synthétiques anonymes extraits de l'entrepôt de données du CHU de Nantes LBD2S et ODH2.0

Description

Le projet « Livre blanc des données synthétiques en santé » consiste à la conception d’un recueil des bonnes pratiques pour générer des données synthétiques anonymes en santé en décrivant leur sécurité, leur informativité et leur authenticité. L’objectif est de convaincre de l’intérêt des données synthétiques en santé et de la confiance que l’on peut apporter à ce type de données qui sont généralement générées par des modèles d’intelligence artificielle d’apprentissage machine en caractérisant tant leur utilité que leur sécurité aboutissant à la qualification de données synthétiques anonymes respectueuses de la vie privée à « haute valeur informative ».

Il contribuera à améliorer les soins à la population et sa prise en charge plus efficiente tout en préservant la vie privée des patients et en démontrant que l’on peut accélérer la recherche collaborative sur les données personnelles de santé à l’international par l’utilisation des données synthétiques. Leur application dans le domaine de la santé pourra servir de modèle de pratiques d’échanges et de valorisation des données dans la société.

Les régulations canadiennes, françaises et européennes, bien qu’elles partagent des objectifs fondamentaux en matière de protection des données de santé, peuvent présenter des différences subtiles dans leur mise en œuvre qui seront traitées par des juristes chercheurs spécialisés dans les nouvelles technologies en santé embarquant l’intelligence artificielle.

Ce livre blanc sera mis en œuvre sur un projet pilote visant à étudier les facteurs de rupture d’anévrisme. Les ruptures d'anévrisme constituent la 3ème cause de mortalité cardiovasculaire en France, avec plus de 2 millions de personnes porteuses de cette malformation sans le savoir ce qui en fait un enjeu de santé public majeur.

Ce travail est rendu possible grâce à la collaboration entre l’expertise des équipes du Centre Hospitalier de l’Université de Montréal, Québec, Canada et du Centre Hospitalier Universitaire de Nantes, France dans la gestion des données personnelles de santé sous la gouvernance du Pr Michaël Chassé et du Pr Pierre-Antoine Gourraud.

Ainsi, ce projet ambitieux devrait servir de modèle pour la manière dont les données personnelles de santé peuvent être gérées et valorisées dans une société mondialisée, en respectant les cadres éthiques et légaux spécifiques à chaque région tout en œuvrant à l'amélioration des soins de santé à l'échelle internationale.

Les fichiers mis à disposition sont sept fichiers (au format CSV) extraits à partir de sept screenings de patients ayant été diagnostiqués d’une pathologie précise, sur une année :

-         A partir de codes CIM-10 français et codes CIM-10-CA concordant et bien codés/utilisés dans chaque établissement

-         7 codes choisis :

  1. Z51.1 (Séance de chimiothérapie pour tumeur)
  2. J44.0 (MPCO avec infection des voies inférieures)
  3. C54.1 (Tumeur maligne de l’endomètre)
  4. N10 (Néphrite tubulo-interstitielle aigue)
  5. C61 (Tumeur maligne de la prostate)
  6. J44.1 (MPCO avec exacerbation aigue sans précision)
  7. L03.1 (Phlegmon d’autres parties d’un membre inférieur)

On s’intéresse ici aux Diagnostics Principaux (DP), Reliés (DR) et Associés (DA) de l’année 2023.

Screening sur l’entrepôt de données du CHU de Nantes permettant l’exclusion immédiate des patients opposés à la réutilisation des données les concernant ainsi que les patients hyper confidentiels* (*définition propre au CHU de Nantes).

Variables disponibles dans les fichiers :

-        Sexe (M/F)

-        Age (années)

-        Statut vital : vivant (O/N)

-        Poids (kg)

-        Taille (cm)

-        Pression Artérielle Systolique (mmHg)

-        Pression Artérielle Diastolique (mmHg)

-        Type de diagnostic (DP/DR/DA)

-        Nombre de documents signés en 2023 (log-transformé puis normalisé)

-        Nombre de visites dans l’année 2023 (2021 à 2023 pour L03.1)

Ces données ont été générées de manière synthétiques et anonymes via la méthode Avatar. (https://www.nature.com/articles/s41746-023-00771-5)

Une documentation du travail est jointe à ces fichiers.

Producteur
Dernière mise à jour
27 juin 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(100 %)
1 API