OLD Données de laboratoires infra-départementales durant l'épidémie COVID-19 SI-DEP

Description

⚠️ Cette ressource n'est plus actualisée depuis le 18 mai 2022.

Le format des ressources issues des données de laboratoires pour le dépistage (SI-DEP) évolue.
L'ensemble des ressources au nouveau format sont centralisées dans le nouveau jeu de données dédié :
➡️ https://www.data.gouv.fr/fr/datasets/donnees-de-laboratoires-pour-le-depistage-a-compter-du-18-05-2022-si-dep/
Merci à nos utilisateurs pour leur compréhension


Information du 7 juin 2021

sg_epci_opendata.csv : Le nom de la colonne EPCI2020 laisse penser à tord que le millésime utilisé est 2020. Pour éviter la confusion la colonne est renommée EPCI2019.

Information du 20 mai 2021

A compter de ce jour, les indicateurs seront corrigés afin de supprimer l’effet doublon, lors de la réalisation de plusieurs tests de dépistage par une même personne.

Depuis le début de la pandémie, la plateforme sécurisée Si-DEP enregistre tous les résultats des tests de dépistage. Afin de garantir la protection des données personnelles des personnes testées, chaque résultat était lié à l’émission d’un pseudo anonymisé. Cependant, avec l’apparition des variants sur le territoire, certaines personnes sont amenées à réaliser deux tests, jusqu’à présent comptabilisés deux fois.

L'algorithme utilisé a donc récemment été mis à jour afin qu’il ne décompte qu’un seul patient lorsque celui-ci se fait tester plusieurs fois dans un intervalle de temps court, toujours en respectant l'anonymat. Grâce à cette nouvelle pseudonymisation, Santé publique France est capable de renforcer son efficacité et de produire des données encore plus précises, consultables chaque semaine dans son point épidémiologique.

Les actions de Santé publique France

Santé publique France a pour mission d'améliorer et de protéger la santé des populations. Durant la crise sanitaire liée à l'épidémie du COVID-19, Santé publique France se charge de surveiller et comprendre la dynamique de l'épidémie, d'anticiper les différents scénarii et de mettre en place des actions pour prévenir et limiter la transmission de ce virus sur le territoire national.

Le Système d’Informations de DEPistage (SI-DEP)

Les indicateurs de surveillance virologique sont issus du système d’information de dépistage (SI-DEP), dont l’objectif est de remonter les données de tests (RT-PCR) réalisés par l’ensemble des laboratoires de ville et établissements hospitaliers concernant le SARS-COV2.

Le taux d'incidence sur 7 jours glissants correspond, au jour J, au nombre total de personnes testées positives dans l'intervalle de temps [J-9; J-3], divisé par le nombre d'habitants.

Description des données

Le présent jeu de données renseigne :

  • la classe du taux d'incidence tous âges sur 7 jours glissants ;
  • la classe du taux d'incidence pour les personnes âgées de plus de 65 ans sur 7 jours glissants ;
  • la classe du taux de dépistage tous âges sur 7 jours glissants ;
  • la classe du taux de dépistage pour les personnes âgées de plus de 65 ans sur 7 jours glissants ;
  • la classe du taux de positivité tous âges sur 7 jours glissants ;
  • la classe du taux de positivité pour les personnes âgées de plus de 65 ans sur 7 jours glissants.

Les taux exacts ne sont pas affichés afin d’éviter l’identification des personnes testées, notamment celles qui présentent un test positif.

Les données sont fournies à l'échelle :

  • EPCI ;
  • Commune ;
  • IRIS.

Le taux d'incidence correspond au nombre de tests positifs pour 100.000 habitants. Il est calculé de la manière suivante :
(100000 * nombre de cas positif) / Population.

Le taux de dépistage, aussi appelé capacité analytique, correspond au nombre de tests réalisés, qu'il soient positifs ou négatifs, pour 100.000 habitants. Il est calculé de la manière suivante :
(100000 * nombre de test réalisés) / Population.

Le taux de positivité correspond au nombre de tests positifs rapportés au nombre de tests réalisés. Il est calculé de la manière suivante : (100 * nombre de test positifs) / nombre de tests réalisés.

Précision :

  • Le taux d'incidence est calculé un jour J à partir des tests réalisés entre 3 et 9 jours précédemment. Pour les jours plus récents (J, J-1, J-2), un grand nombre de tests n'est pas encore rapporté (délai de collecte et de centralisation) ;
  • Si un patient a réalisé plusieurs tests positifs, la date de son premier test PCR est sélectionnée ;
  • À compter du 29/08, les indicateurs issus des données de laboratoires (SI-DEP) présentent des taux d’incidence, de positivité et de dépistage corrigés en fonction des dépistages réalisés dans les aéroports à l’arrivée des vols internationaux ;
  • Pour en savoir plus consultez la note méthodologique disponible dans les ressources.

Limites :

  • Seuls les tests biologiques des personnes pour lesquelles le département de résidence a pu être localisé sont identifiés. Les personnes dont le département n’a pas pu être remonté dans les données SIDEP ne sont comptabilisées qu'au niveau France entière. De ce fait la somme des tests indiqués dans les départements ou régions est inférieure au nombre de tests indiqué en France.
  • Le délai de remontée des tests peut excéder 9 jours dans certains cas. Les indicateurs sont ajustés quotidiennement selon la réception des résultats.
Dernière mise à jour
18 mai 2022

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(78 %)
  • Fréquence de mise à jour non respectée

  • Couverture temporelle non renseignée

Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

17 discussions dont 1 clotûrée

Fichiers des données SI-DEP infra-départementales de mars 2022 et avril 2022

Posté le 18 mai 2022
Bonjour, Pourriez-vous, s'il vous plait, indiquer où sont publiées les données SI-DEP infradépartementales pour les mois de mars et avril 2022? Cordialement,

sg-com-opendata-2022-etc.csv (3)

Posté le 30 mars 2022
Bonjour Delphine, Merci pour votre réponse. La discussion 'sg-com-opendata-2022-etc.csv' a été close sans solution. 1/ La première question était de remettre le fichier CSV sous le titre 'Mise à jour' sur cette page. Une méthode qui a bien fonctionnée pour plus d'une année, mais qui s'est arrêtée le 7 mars. 2/ Une meilleurre méthode serait d'avoir une URL de téléchargement fixe où se trouve à tout moment le dernier fichier, avec un nom stable. Il est impossible de prédire la date et l'houre dans le nom du fichier : /20220328-200124/sg-com-opendata-2022-03-28-20h01.csv 3/ L'URL de hier ne marche pas : https://static.data.gouv.fr/resources/donnees-de-laboratoires-infra-departementales-durant-lepidemie-covid-19/20220328-200124/sg-com-opendata-2022-03-28-20h01.csv Les données françaises sont indispensables pour la mise à jour quotidienne de notre carte COVID transfrontalière : https://www.egts-gect.eu/fr/covid-19 S'il vous plaît, contactez moi directement sur b.boute@wvi.be. Merci beaucoup. Bart
Posté le 31 mars 2022
Merci pour la solution d'utiliser le Permalink https://www.data.gouv.fr/fr/datasets/r/c2e2e844-9671-4f81-8c81-1b79f7687de3 Le résultat ici : https://wvigis.maps.arcgis.com/apps/webappviewer/index.html?id=bfd24d01b0a244529970a88983f4ff97 Cordialement, Bart

sg-com-opendata-2022-etc.csv (2) !!

Posté le 28 mars 2022
Discussion close par Delphine Jezewski-Serra le 29 mars 2022

sg-com-opendata-2022-etc.csv

Posté le 25 mars 2022
Pourquoi le téléchargement des 'Données de laboratoires infra-départementales durant l'épidémie COVID-19' s'arrête à 2022-03-07? Est-ce qu'il y a une autre source de données covid-19 communales ??

fichier avec les faux positifs

Posté le 10 décembre 2021
je cherche un fichier avec les faux positif dans les tests pcr

Traitement complet des données

Posté le 2 décembre 2021
Bonjour, En réponse aux nombreuses demandes concernant la lecture des bases de données avec les délimiteurs, je me permets de partager un code sur Python qui nettoie, établie quelques statistiques descriptives sur les taux d'incidence et les représentent graphiquement. Ce code serait à appliquer à plusieurs bases de données, et observer une évolution dans le temps: #################################################################################################################### # import packages import pandas as pd import re import matplotlib.pyplot as plt # load data df = pd.read_csv('sg-iris-opendata-2021-01-01-19h25.csv', sep=';') df # build clean columns df['full_ti_class'] = df['iris2019'].map(str) + ';' + df['semaine_glissante'].map(str) df['full_td_class'] = df['clage_65'].map(str) + ';' + df['ti_classe'].map(str) df['full_tp_class'] = df['td_classe'].map(str) + ';' + df['tp_classe'].map(str) df # drop messy columns df = df.drop(['iris2019', 'semaine_glissante', 'semaine_glissante', 'clage_65', 'ti_classe', 'td_classe', 'tp_classe'], axis=1) df # rename index df.index.rename(['iris_code', 'date', 'ti_65'], inplace=True) df = pd.DataFrame(df) df # Replace Max by 3000 in incidence rate, brackets by pythonic brackets, ; by , def replace_max(x): new_max = re.sub(r'Max', '3000', x) return new_max df['full_ti_class'] = df['full_ti_class'].apply(lambda x:replace_max(x)) df['full_td_class'] = df['full_td_class'].apply(lambda x:replace_max(x)) df['full_tp_class'] = df['full_tp_class'].apply(lambda x:replace_max(x)) df['full_ti_class'] = df['full_ti_class'].apply(lambda l: "(%s)" % str(l).strip('[]')) df['full_td_class'] = df['full_td_class'].apply(lambda l: "(%s)" % str(l).strip('[]')) df['full_tp_class'] = df['full_tp_class'].apply(lambda l: "(%s)" % str(l).strip('[]')) df = df.apply(lambda x: x.str.replace(';',',')) df # drops nan df = df[df.full_tp_class != '(nan;nan)'] df = df[df.full_ti_class != '(nan;nan)'] df = df[df.full_td_class != '(nan;nan)'] df # Get percentages of incidence intervals by week # Filters for the AM department df = df.reset_index() df_am = df.loc[df['iris_code'].str.startswith('6', na=False)] dis_incid_rate_w1 = pd.DataFrame(df[df['date'] == '2020-11-23-2020-11-29']['full_ti_class'].value_counts(normalize=True)) dis_incid_rate_w1_am = pd.DataFrame(df_am[df_am['date'] == '2020-11-23-2020-11-29']['full_ti_class'].value_counts(normalize=True)) plt.figure(figsize=(12, 12)) plt.plot(dis_incid_rate_w1)

Absence EPCI Coulommiers

Posté le 27 avril 2021
Bonjour ; Les données de l'EPCI de Coulommiers Pays de Brie (Seine-et-Marne 77) semblent absentes de l'export. SIREN = 200090504. Est-ce normal de ne pas avoir les données sur ce territoire ? Merci pour votre aide.
Posté le 27 avril 2021
Nous avons le même problème sur l'ensemble des EPCI du Grand Paris. Absence des données

Attention aux mises à jour de formatage BIS

Posté le 26 février 2021
Bonjour, Merci pour ces données très utiles aux Français et à nos lecteurs. Cependant j'aimerais souligner un problème que j'avais déjà fait remarquer sur le jeu de données des vaccinations : attention aux changements de formatage de vos fichiers. Le 7 février, le délimiteur du fichier des communes est passé du point-virgule à la virgule. C'est un changement tout à fait compréhensible, et qui peut paraître anodin, mais il "casse" bon nombre de traitements automatisés basés sur vos fichiers. On ne les corrige alors que quand on nous fait remonter le problème. En l'occurence, nos cartes interactives chez nous étaient bloquées jusqu'à ce qu'on s'en aperçoive aujourd'hui. Comme il est difficile d'anticiper tous les changements potentiels de format (ce n'est pas le premier ici d'ailleurs), serait-il possible : - Soit d'assumer un format jusqu'au bout, quitte à créer des doublons si nécessaire ? - Soit de mettre en place un système permettant de s'inscrire à un système d'alertes sur un jeu de données et d'être averti à l'avance ou même le jour même d'un changement, par mail ? - Soit de publier une espèce de "changelog" dans la présentation des jeux de données pour au moins, quand on s'en rend compte trop tard, savoir tout de suite quoi changer dans le code ? Bien cordialement.

Erreur siren EPCI dans les séries récentes

Posté le 25 février 2021
Les fichiers récents (janvier et février 2021) des données agrégées au niveau des EPCI utilisent les codes Siren de 2019, à la différence des séries antérieures (Siren 2020). Pourriez-vous éviter à l'avenir de modifier les géographies sans préavis et sans fournir de table de passage?
Posté le 25 février 2021
Addendum: les SIREN des EPCI sont erronés à partir du fichier daté du 23 décembre 2020. Pourriez-vous effectuer les corrections rapidement, et cesser dès aujourd'hui d'utiliser le fichier qui reprend les SIREN 2019 ?

Formatage CSV fichier IRIS

Posté le 6 janvier 2021
Bonjour, je télécharge les données à l'IRIS tous les 15 jours. Je note une modification des séparateurs du fichier sg-iris-opendata-2021-01-05-19h25.csv (";") depuis mon dernier téléchargement (sg-iris-opendata-2020-12-22-19h25.csv) pour lequel le séparateur était ",". Le séparateur ";" devient complexe à gérer étant donné que les données contiennent elle-même des ";". Une modification est elle prévue ? Merci. Bien cordialement, Gaelle GABRIEL Bureau de la Géomatique - Ville de Paris
Posté le 8 janvier 2021
Je confirme, j'ai le même problème... On peut dire aussi que avec ce nouveau séparateur ";" au lieu de "," l'en-tête ne correspond plus au corps du fichier comme il y avait aussi des ";" entre les bornes des valeurs... Il faudrait vraiment qu'ils corrigent ce bug...

Erreur de séparateur version du 25 décembre 2020

Posté le 25 décembre 2020
Bonjour, le séparateur a été modifié récement pour un point virgule, le problème est que certain champs contiennent des points virgules également. Il faudrait soit repasser à la virgule comme séparateur soit ajouter des "" aux textes contenant des ";". Merci iris2019;semaine_glissante;clage_65;ti_classe;td_classe;tp_classe 220160000;2020-11-16-2020-11-22;0;[1000;Max];[2500;Max];[20;25[ ment.
Posté le 4 janvier 2021
Bonjour, Effectivement le séparateur a été changé pour des points virgules, ce qui rend les données difficilement exploitables. Quelqu'un sait-il s'il est prévu de corriger cela ?
Posté le 5 janvier 2021
Idem, je constate la même anomalie, les données sont maintenant inutilisables suite au changement de séparateur de , pour ; . Est ce que quelqu'un lit ces commentaires ?
Posté le 6 janvier 2021
Vu que le problème persiste et qu'à priori pas de solution à ce jour, pour ceux qui sont intéressés, avec ce petit bout de code Python, vous pouvez remettre le bon format : with open('data.csv','r') as inp,open('sg-com-opendata-2021-01-05-19h25.csv','w') as outp: header = True for line in inp: if header: newline = line.replace(';',',') header = False outp.write(newline) else: chunks = line.split(';') if len(chunks)==9: newline = ','.join(chunks[0:3]) + ',' + \ ';'.join(chunks[3:5]) + ',' + \ ';'.join(chunks[5:7]) + ',' + \ ';'.join(chunks[7:]) outp.write(newline)
Posté le 6 janvier 2021
Pour ceux qui sont sous Mac OS, il est possible de remplacer les [ par des " dans les csv en utilisant la commande sed. sed -i '' 's/\[/\"/g' <nom du fichier> sed -i '' 's/\]/\"/g' <nom du fichier> Lors de l'import du csv dans excel les ; dans les cellules ne seront plus pris comme des séparateurs. Pour Linux c'est la même commande mais il ne faut pas mettre le '' après le -i.

calculs des différents taux

Posté le 26 novembre 2020
Bonjour, Comment trouver la source pour calculer les différents Taux, certains me parraissent exagéré par rapport à la situation géographique de certaines communes, notamment en Savoie comme Bonneval sur Arc (250 habitants à l'année), et Val Cenis (2126 hab), comment peuvent elles avoir des taux aussi importants ? Exemple au 22/11 pour Bonneval sur arc :  Taux d'incidence entre 500 et 1000 pour 100 000 habitants - Taux de dépistage entre 1500 et 2000 pour 100 000 habitants - Taux de positivité  supérieur à 30 % ?

Ventilation en fonction des catégories socio-professionnelles

Posté le 12 novembre 2020
Bonjour, Est-ce qu'il y a quelque part des données qui permettent de savoir si les restaurants sont effectivement des nids à clusters? Ou la raison pour laquelle les salons de coiffure restent fermés alors que nous n'avons jamais entendu parler du moindre cas contact lié aux salons de coiffure. Bref : si on a les clusters en fonction des catégories socio-professionnelles?

Accès complet au fichier impossible sous excel

Posté le 10 novembre 2020
Bonjour, le fichier commune ayant trop d'enregistrements, il ne s'ouvre pas en entier. J'ai besoin de récupérer toutes données de mes 40 communes ( code INSEE commençant par 86 mais là ça s'affiche que jusqu'au 60385. Quelle solution? cordialement
Posté le 16 novembre 2020
Bonjour, Vous pouvez découper le fichier csv au moyen de split.exe en commande DOS. Pour faire court, si vous m'envoyez votre adresse mail, je vous transmettrai les données de la Vienne du fichier publié ce 16 novembre. Cordialement, Jean-Philippe Gautier jphgautier@yahoo.fr
Posté le 17 novembre 2020
Bonjour, je veux bien le fichier sur la vienne. voici mon mail severine.ferrant@grandpoitiers.fr. merci cdt severine ferrant
Posté le 8 janvier 2021
sous Excel365, l'onglet Données ouvre l'accès aux fonctionnalités Powerquery; vous pouvez traiter les données des fichiers à l'iris comme vous le voulez; mais en final, un filtre est indispensable pour les exploiter sous Excel. Perso, j'ai récupéré tout l'historique et tous les jours je refais le traitement pour ma seule commune. c'est long, mais ça marche !

Comment sont comptabilisées les personnes hospitalisées et en réa ?

Posté le 6 novembre 2020
Bonjour, Les données Geodes des personnes actuellement hospitalisées pour Covid incluent-elles celles présentes en réanimation (dans les mêmes établissements), comptabilisées par ailleurs dans des tableaux spécifiques ?
Posté le 9 novembre 2020
Bonjour, Bien que la question aurait dû être posée sur le jeu de données "Données hospitalières relatives à l'épidémie de COVID-19" puisque là nous sommes sur "Données de laboratoires infra-départementales durant l'épidémie COVID-19 SI-DEP" ce qui n'a rien à voir : les réa sont inclus dans les hosp. Autrement dit : si vous avez 100 personnes en hosp et 20 en réa, cela signifie que parmi les 100 personnes hospitalisées, il y en a 20 qui sont en réa. Donc 80 qui sont en hospitalisation plus 'légère'. Ne pas faire la somme 100 + 20 pour avoir le nombre de personnes hospitalisées au total : c'est déjà le total.
Posté le 9 novembre 2020
Votre réponse me permet de mieux apprécier la réalité de la situation entre le total des personnes hospitalisées et celles présentes en réanimation. Rançon de la transparence démocratique, la multiplicité des données Covid, de leurs catégories et des procédures offertes sur Geodes, remarquables en l'occurrence, a de quoi perdre un peu le néophyte. Merci doublement.
Posté le 24 novembre 2020
DELETED

Données anciennes non présentes après actualisation

Posté le 28 octobre 2020
Bonjour, est-ce normal que les données les plus anciennes soient supprimées à chaque actualisation ? Hier, la date la plus récente correspondant au 23/10, et la plus ancienne au 02/10. Aujourd'hui, les données du 24/10 sont disponibles, mais le fichier ne remonte plus qu'au 03/10, comme si chaque ajout supprimait autant de lignes en historique. Il y a quelques jours, on pouvait remonter jusqu'au 29 septembre. Sur la plate-forme Geodes, même après chaque nouvelle actualisation quotidienne, l'historique des données reste pourtant accessible au-delà. Merci
Posté le 31 octobre 2020
Oui c'est dommage de ne pas avoir tout l'historique, peut-être est-ce une question de taille de fichier, mais dans ce cas il serait bien d'avoir les historique accessible. La date la plus ancienne disponible ici est bien le 03/10.
Posté le 1 novembre 2020
Il y a les archives sur le site externe opendatarchives.fr, cf le lien dans la partie « Ressources communautaires ». Ça oblige à fusionner les différents fichiers pour reconstituer l’historique complet.
Posté le 1 novembre 2020
@Sébastien, merci ! c'est une mine d'or ce site opendatarchives !
Posté le 1 novembre 2020
Du coup le fichier le plus ancien sur opendataarchives est celui du 26 octore qui remonte à la semaine du 26 sept au 2 octobre : http://files.opendatarchives.fr/data.gouv.fr/sante-publique-france/donnees-de-laboratoires-infra-departementales-durant-lepidemie-covid-19%20-%20sg-iris-opendata.csv
Posté le 1 novembre 2020
Bonjour, Vous pouvez trouver l'historique des données dans la rubrique "Mise à jour" de ce jeu de données. Bien à vous
Posté le 2 novembre 2020
Merci pour cette réponse. À titre informatif, pourquoi ne pas rendre ces données plus anciennes accessibles dans le fichier actualisé quotidiennement ? Est-ce une impossibilité technique actuelle ? Plus on va avancer dans le temps, plus il faudra conjuguer de fichiers de l'historique (qui ne sont par ailleurs pas actualisés pour tenir compte des remontées de tests plus tardives, il me semble)
Posté le 4 novembre 2020
DELETED
Posté le 24 novembre 2020
DELETED

Erreur formatage ?

Posté le 22 octobre 2020
J'ai l'impression que les données sont mal formatées non ? Il y a des crochets non fermés...
Posté le 22 octobre 2020
En effet, une erreur de formatage a été identifiée. Des fichiers corrigés seront publiés demain 23 octobre.
Posté le 23 octobre 2020
Oui, il faut changer de séparateur, le ";" est présent dans les données
Posté le 4 novembre 2020
DELETED