Agrégation des fichiers des personnes décédées

Description

A partir des fichiers des personnes décédées produits par l'INSEE, l'équipe de data.gouv.fr propose une nouvelle façon d'accéder aux données, sous la forme d'un seul fichier agrégé. Vous pouvez retrouver la documentation ainsi que l'ensemble des précautions liées aux données dans la description du jeu de données d'origine. Pour toute question concernant le contenu des données, nous vous invitons à poser vos questions sur le jeu de données source. Les données sont identiques aux données sources, hormis :

  • les quelques lignes dans lesquelles la structure n'a pas permis de reconstituer les colonnes correctement (une seule ligne actuellement)
  • la colonne fichier_origine, qui indique de quel fichier source la ligne est issue
  • la colonne opposition, qui indique si la ligne en question a fait l'objet d'une opposition

Les données sont mises à jour automatiquement lorsque les données sources le sont, et le code de mise à jour est ouvert. Les données sont disponibles aux formats csv et parquet. Les colonnes de ces fichiers sont décrites dans le fichier de documentation.

Producteur
Dernière mise à jour
10 juillet 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(100 %)

Vous souhaitez trouver des informations sur une personne décédée ?

L’outil matchID vous permet de rechercher parmi 26 millions de décès depuis 1970.

Consulter matchID

2 discussions

Correction erreur

Posté le 13 mai 2025
Bonjour, Existe il un code source qque part faisant l'aggregation ? Nous avons constaté des petites erreurs dans la donnée brute, je pensais rajouter un etape de nettoyage.
Posté le 13 mai 2025
Bonjour, le code qui met à jour ce jeu de données est disponible ici : https://github.com/datagouv/datagouvfr_data_pipelines/tree/main/data_processing/insee/deces

format parquet

Posté le 25 septembre 2024
Merci pour cette mise à disposition dans ce format, c'est bien pratique. Je note un certain nombre de doublons, soit purs, soit avec de légères variations de numero_actes_deces ou fichier_origine. ENsuite, si cela était possible, des champs complémentaires de type date pour naissance et décès seraient bien pratiques pour les calculs (je suis conscient qu'il y a des dates invalides, qu'il faudrait rectifier, je viens de faire l'exercice).
Posté le 25 septembre 2024
Bonjour, merci pour ce retour. Actuellement aucun traitement n'est fait sur les données. Pour toute question sur leur contenu et les précautions d'usage, l'INSEE sera plus à même de vous répondre. Si des améliorations sont suggérées par l'INSEE (déduplication notamment), nous pourrons les mettre en place dans notre traitement. Je ne suis pas sûr de comprendre votre deuxième point : les dates de naissance et décès sont disponibles dans les fichiers (format AAAAMMJJ) (toujours avec les précautions indiquées par l'INSEE pour les cas de méconnaissance d'une donnée).
Posté le 25 septembre 2024
Merci pour votre prompte réponse, je vous rejoins dans le respect des indications du fournisseur, vers qui je pourrais me tourner. D'une façon générale, surtout en parquet qui gère des types, un champ date typé date est directement manipulable, on n'a pas à le décoder (parser) à la main, ce qui fait gagner ps mal de temps.
Posté le 26 septembre 2024
Merci pour cette précision : en effet nous avons testé la conversion des colonnes qui contiennent des dates au type DATE dans le parquet, mais les dates (partiellement ou totalement inconnues) posent problème (impossible de convertir 1950-00-01 en date par exemple). Nous avons envisagé de convertir ces cas en une date réelle (et d'ajouter une colonne qui dirait que la date n'est pas exacte), mais cela ne nous semble pas satisfaisant. Si vous avez des suggestions, nous sommes preneurs.
Posté le 26 septembre 2024
Merci pour ce suivi. J'ai eu la même idée que vous, ajouter aux dates en caractère deux dates estimées au format date, deux champs indiquant la précision de l'estimation, et l'âge au décès obtenu par différence entre les deux dates. Ainsi, aucune information ne serait perdue, et la valeur ajoutée serait bien présente. Pour ce que ça vaut, mon retraitement en SQL DuckDB (mais sans le calcul des indicateurs d'estimation) : COPY ( WITH t1 AS ( FROM 'base_deces.parquet' SELECT * REPLACE (opposition::boolean AS opposition, replace(prenoms,',',', ') AS prenoms), date_naissance[:4] tp_an_nais, CASE WHEN date_naissance[5:6] = '00' OR date_naissance[5:6] > '12' THEN '07' ELSE date_naissance[5:6] end tp_mois_nais, CASE WHEN date_naissance[-2:] = '00' THEN '15' ELSE date_naissance[-2:] END tp_jour_nais, IFNULL(try_cast(tp_an_nais || '-' || tp_mois_nais || '-' || tp_jour_nais AS date), (tp_an_nais || '-' || tp_mois_nais || '-01')::date + INTERVAL 1 MONTH - INTERVAL 1 DAY) AS date_naissance_est , date_deces[:4] tp_an_deces, CASE WHEN date_deces[5:6] = '00' OR date_deces[5:6] > '12' THEN '07' ELSE date_deces[5:6] end tp_mois_deces, CASE WHEN date_deces[-2:] = '00' THEN '15' ELSE date_deces[-2:] END tp_jour_deces, IFNULL(try_cast(tp_an_deces || '-' || tp_mois_deces || '-' || tp_jour_deces AS date), (tp_an_deces || '-' || tp_mois_deces || '-01')::date + INTERVAL 1 MONTH - INTERVAL 1 DAY) AS date_deces_est, date_diff('year',date_naissance_est,date_deces_est) AS age WHERE len(trim(date_deces)) = 8 AND len(trim(date_naissance)) = 8 ) FROM t1 SELECT columns(c -> c NOT LIKE 'tp_%' ) ORDER BY date_naissance_est,code_insee_naissance, nom ) TO 'base_deces2.parquet' (compression 'zstd') ; Et pour le dédoublonnage, quelque chose comme : FROM 'base-deces.parquet' QUALIFY row_number() OVER (PARTITION BY nom, prenoms, code_insee_naissance,code_insee_deces,date_naissance, date_deces) = 1
Posté le 26 septembre 2024
Merci pour ce retour. Je ne suis pas sûr que nous voulions nous engager à ce point dans des retraitements, avec des choix éditoriaux forts qui peuvent entraver la bonne compréhension des données. Nous sommes en contact avec l'INSEE pour continuer d'améliorer la qualité de ce jeu de données. Ces modifications des données pour améliorer leur qualité sont cependant intéressants, elles ont toute leur place dans les ressources communautaires si vous souhaitez en faire bénéficier la communauté.
Posté le 26 septembre 2024
Je comprends, merci pour le débat constructif. Je pourrais déposer ma version ici, mais comme je ne peux m'engager à la mettre à jour régulièrement, ce n'est pas la formule idéale. Connaissant l'Insee, je ne doute pas qu'ils prendront en compte quelques unes de ces suggestions au moment opportun.