Surveillance du Sars-Cov-2 dans les eaux usées (SUM'Eau) SUM'eau

Description

Un dispositif national de surveillance des eaux usées (SUM’Eau) a été initié sous l’impulsion de la direction générale de la santé (Ministère chargé de la Santé) et de la direction de l’eau et de la biodiversité (Ministère chargé de l’écologie) avec l’appui technique et scientifique des agences sanitaires (Santé publique France, Agence nationale de sécurité sanitaire de l’alimentation, de l’environnement et du travail). La surveillance des eaux usées poursuit deux objectifs, qui sont (1) détecter précocement la présence du génome du SARS-CoV-2 en population générale et (2) suivre les tendances de la circulation virale au sein de la population.

Les données proposées permettent d’estimer la tendance de circulation du virus SARS-CoV-2 dans les eaux usées au sein de 54 collectivités. Les indicateurs de suivi du SARS-CoV-2 dans les eaux usées sont calculés à partir du ratio entre la concentration virale de SARS-CoV-2 (exprimée en cg/L et quantification réalisée à partir du gène E) et la concentration en azote ammoniacal (exprimée en mg de N/L). Les résultats font ensuite l’objet d’un lissage par un modèle GAM hiérarchique (Generalized Additive Model). Cette approche intègre à la fois une tendance d’ensemble et les variations propres à chaque station. La pondération des données de chaque station par la population desservie permet de mieux refléter le poids réel des différentes populations dans les indicateurs agrégés. Ce lissage peut expliquer une variation des précédentes mesures lors d’une nouvelle livraison 

Ces données sont actualisées à fréquence hebdomadaire.

[26/09/2025] À partir de la semaine 38 de septembre 2025, la méthode de lissage a évolué. Un modèle GAM (Generalized Additive Model) remplace désormais la régression LOESS. Les données déjà disponibles ont été retravaillées avec ce nouveau modèle, et le fichier de résultats a été mis à jour en conséquence.

[23/09/2024]. Le réseau de surveillance a évolué et ce sont désormais 54 stations de traitement des eaux usées qui sont suivies à fréquence hebdomadaire depuis la semaine 17 de l’année 2024. Des colonnes ont ainsi été ajoutées pour intégrer ces nouveaux points de collecte. Le fichier relatif aux stations a également été actualisé en conséquence.

[06/03/2024]. Le réseau de surveillance a évolué à partir de la semaine 08 de l’année 2024. Ainsi, c’est désormais la station de Lille-Marquette-Lez-Lille - et non plus la station de Roubaix-Wattrelos – qui est désormais suivie au niveau de l’agglomération lilloise. Une colonne a ainsi été ajoutée au fichier relatif aux indicateurs. Le fichier relatif aux stations a également été actualisé en conséquence.

[17/01/2024]. Un correctif a été apporté au script de traitement des données de SUM’EAU.
Ce correctif permet de corriger une erreur survenue dans le calcul du lissage lors du changement d’année.

[20/12/2023]. Un correctif a été apporté aux valeurs de l’indicateur national à la suite d’une confusion sur l’identification de la station suivie au sein de la métropole de Lille. C’est en effet la station de Roubaix-Wattrelos qui est suivie depuis la semaine 30 de l’année 2022 et non la station de Lille-Marquette-Lez-Lille. Cette confusion ne modifie pas les valeurs de l’indicateur de la station elle-même (la taille de population n’est pas utilisée dans ce cadre) mais a un impact sur les valeurs de l’indicateur national qui utilise une moyenne pondérée par la taille de population de chaque station. L’impact sur le suivi des tendances est cependant négligeable étant donné que les tailles de population sont du même ordre de grandeur. L’ensemble des valeurs de l’indicateur national ont ainsi été recalculées.

Deux fichiers sont disponibles et la correspondance entre ces deux fichiers est assurée par le nom de la STEU.

  • sumeau_stations.csv : Ce fichier est un référentiel d’informations sur les stations de traitement des eaux usées (STEU) suivies dans le cadre de SUM’Eau. Les données proposées (nom de la STEU, nom de la commune principale, géolocalisation de la STEU selon Système géodésique mondial de 1984) sont principalement issues de la base de Données sur les Eaux Résiduaires Urbaines (BDD ERU), millésime 2021, gérée par le ministère en charge de l’écologie. Le code unique attribué à chacune des STEU fait en particulier référence au référentiel élaboré par le Service d'administration nationale des données et référentiels sur l'eau (Sandre). La taille de population, utilisée pour la construction de l’indicateur global (cf. infra), est une estimation réalisée en lien avec les exploitants de STEU.

nom = nom de la STEU ;
commune = commune principale couverte par la STEU ;
sandre = code de la STEU selon le référentiel Sandre ;
population = estimation de la taille de population du bassin raccordé à la station de traitement des eaux usées où le prélèvement a été réalisé ;
longitude = longitude de la STEU.
latitude = latitude de la STEU ;

  • sumeau_indicateurs.csv : Ce second fichier est le fichier de restitution des indicateurs de suivi du SARS-CoV-2 dans les eaux usées. La première colonne correspond à la semaine de prélèvement. Les colonnes suivantes correspondent aux différentes STEU suivies. Ainsi, chaque ligne correspond aux valeurs de l’indicateur de suivi du SARS-CoV-2 dans les eaux usées obtenue pour chacune des stations suivies pour la semaine considérée. Une valeur manquante (NA) traduit l’absence de données pour une station et une semaine données. La dernière colonne (National) correspond à l’indicateur global national ; celui-ci est calculé comme la moyenne des indicateurs des différentes STEU suivies, pondérée par la taille de population raccordée aux différents sites surveillés.
Dernière mise à jour
3 décembre 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(100 %)
Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

19 discussions

National_54 et National_12 ?

Posté le 23 octobre 2025
Bonjour, avant il n'y avait qu'une valeur national maintenant il y en a 2.A quoi correspond National_54 et National_12 ? Par avance merci
Posté le 4 décembre 2025
Producteur
National_54 et National_12 correspondent à deux indicateurs nationaux reposant sur deux réseaux de stations, dont l’un est inclus dans l’autre. National_12 : Indicateur agrégé à l’échelle nationale à partir des 12 stations historiques, suivies depuis 2022. Ces stations sont : Dijon, Grenoble/Aquapole, Lescar, Marseille, Maxéville, Nantes, Orléans, Paris Seine-Centre, Rennes, Roubaix-Wattrelos (remplacée depuis par Lille), Rouen et Toulouse. National_54 : Indicateur national basé sur l’ensemble des 54 stations actuellement suivies, comprenant les 12 stations historiques ainsi que les 42 nouvelles stations intégrées depuis 2024.

Éléments du modèle de lissage

Posté le 14 octobre 2025
Bonjour, suite à la mise à jour du lissage les courbes ont changé de tête. Du coup je me demande comment avoir des informations plus précises sur le modèle employé. Bonne journée

Vacances ?

Posté le 21 août 2025
Bonjour, Je m'étonne de voir que les données n'ont pas été mises à jour depuis 3 semaines. A ma connaissance, le COVID ne prend pas de vacances. Le taux d'incidence serait même en train de bien remonter selon Sentinelles https://www.sentiweb.fr/. Les données des eaux usées sont comme vous le savez, les données les plus fiables dont nous disposons. Il serait dommage de se retrouver dans un flou quasi total. Est-ce que l'on peut espérer retrouver ces données à jour prochainement ?

Régularité des mises à jours

Posté le 28 avril 2025
Bonjour ! Nous sommes le 28 avril 2025, et les dernières données disponibles datent du 6 avril : quelle est la raison du retard de la publication des données des semaines suivantes ? C'est particulièrement dommageable alors qu'une nouvelle vague de COVID a commencé pour la moitié N-O de la France. On pourrait espérer que cette publication soit considérée comme essentielle en termes de santé publique, et donc que les moyens nécessaires y soient dédiés pour permettre une production régulière des données correspondantes.

Standardisation de l'indicateur

Posté le 10 avril 2025
Bonjour, En explorant les données, on voit que certaines stations ont des niveaux d’indicateurs toujours beaucoup plus bas que d’autres, même sur des périodes de pic épidémique. J’aurais donc une petite question : est-on certain que les indicateurs sont bien standardisés et donc comparables d'une station à l'autre ? Merci d’avance pour vos éclaircissements et pour la mise à disposition de ces données très précieuses. Bien cordialement,

Modification des données

Posté le 10 janvier 2025
Bonjour, Comment expliquer le changement de certains ratio entre la concentration virale de SARS-CoV-2 (exprimée en cg/L et quantification réalisée à partir du gène E) et la concentration en azote ammoniacal (exprimée en mg de N/L) pour une même semaine ? Par exemple certains données affichées pour la semaine 50 en décembre 2024 ne sont pas celles affichées pour la semaine 50 au 8 janvier 2025. Qu'est-ce qui justifie cette modification ?
Posté le 16 janvier 2025
La description du jeux de données précise cela : Les données proposées permettent d’estimer la tendance de circulation du virus SARS-CoV-2 dans les eaux usées au sein de 54 collectivités. Les indicateurs de suivi du SARS-CoV-2 dans les eaux usées sont calculés à partir du ratio entre la concentration virale de SARS-CoV-2 (exprimée en cg/L et quantification réalisée à partir du gène E) et la concentration en azote ammoniacal (exprimée en mg de N/L). Les données obtenues sont ensuite lissées selon la méthode de régression LOESS. Ce lissage peut expliquer une variation des précédentes mesures lors d’une nouvelle livraison.
Posté le 28 janvier 2025
Bonjour, Je vous remercie pour votre réponse. Quel est l'intérêt du lissage selon la méthode de régression LOESS ? Les variations après lissage me semblent parfois assez importantes. Par ailleurs, serait-il techniquement possible de connaître ces données avec moins de décalage ? (ou bien est-ce c'est totalement impossible ?).

Bug fichier CSV indicateurs via API

Posté le 7 décembre 2024
Bonjour, Il y a un bug dans votre API qui permet de récupérer le fichier des indicateurs au format CSV (https://tabular-api.data.gouv.fr/api/resources/2963ccb5-344d-4978-bdd3-08aaf9efe514/data/csv/). En effet, le caractère séparateur de la réponse à cette API est la virgule. Or, le nom de la station "TOURS, LA RICHE LA GRANGE DAVID" comprend une virgule donc cela induit une séparation de cette colonne en deux sur la ligne d'en-têtes et un décalage des colonnes vers la gauche sur les lignes suivantes. Il faudrait utiliser plutôt le caractère séparateur point-virgule comme c'est fait partout ailleurs. Merci par avance pour votre correction. Cordialement,
Posté le 9 décembre 2024
Remarque prise en compte, la virgule est remplacée par un tiret.

EPSG code

Posté le 31 octobre 2024
Quel est le code EPSG des valeurs de latitude et de longitude dans le fichier csv sumeau_stations? Rien de ce que j'ai essayé à partir de https://epsg.io/ ne renvoie de valeurs WGS84 valides.

Quand est-ce que les nouvelles données vont arriver ?

Posté le 19 octobre 2024
Les dernières données ont été mises-à-jour il y a 18 jours. Quand aurons-nous les nouvelles données ? Ces données sont indispensables pour pouvoir suivre l'évolution de circulation du SARS-CoV-2, surtout lorsque nous sommes en vague épidémique comme actuellement.

Fin de la surveillance ?

Posté le 17 octobre 2024
La dernière mise à jour semble dater d'il y a 2 semaines (le 2 octobre), est-ce la fin de la surveillance du COVID dans les eaux usées par SUM'Eau ?

Nouvelles Stations

Posté le 29 mai 2024
Bonjour, de nouvelles stations de surveillance sont-elles prévues ? si oui, combien et quand les données seront-elles disponibles ?

Nombre de stations

Posté le 4 mai 2024
Quand allez vous introduire les données de suivi par les 54 stations ?

Attention à l’utilisation d’un fichier CSV sur le long terme

Posté le 21 mars 2024
Il va peut-être falloir songer à mettre en place une api pour récupérer les données (et de les stocker dans une base de données) avant que le fichier ne deviennent trop volumineux pour pouvoir être ouvert dans un tableur ou lu par une application. Ce n’est pas encore le cas. Mais c’est juste à garder en tête pour éviter que ça ne se produise à l’avenir.

Quand est-ce qu'on aura les nouvelles données ?

Posté le 19 mars 2024
Les indicateurs s'arrêtent au 3 mars. Or, on est le 19 mars.

BUG sur lien permanent

Posté le 23 février 2024
Bonjour, Attention le lien permanent est bugué, il donne un fichier qui s'arrête en 2023 ! Ça pose de gros problèmes pour les réutilisations. Merci d'avance pour la réparation !

Accessibilité de la surveillance des eaux usées

Posté le 25 décembre 2023
Bonjour, envisagez-vous de communiquer ces données sous une forme plus accessible au public, comme cela se pratique dans de nombreux pays, afin que la population puisse suivre facilement la circulation de SarsCov2 et prendre les mesures appropriées pour se protéger, conformément à ses droits à l'information et à la santé ?
Posté le 23 février 2024
Bonjour, il y a un outil (monté bénévolement) dans la rubrique "réutilisations". Pour l'instant il est bloqué en 2023 (bug du côté de data.gouv) mais je les contacte pour régler le problème.
Posté le 20 mars 2024
Bonjour, Je vous remercie pour votre réponse.

Réécriture de l'historique

Posté le 20 décembre 2023
Bonjour il semblerait que le fichier des remontées ait subit une réécriture de son historique, les données depuis 2022 ont changé pour la version du 20 décembre 2023. Serait il possible d'avoir le détail exact des calculs pour y parvenir?
Posté le 21 décembre 2023
Une note a été rajoutée pour expliquer la modification : Un correctif a été apporté aux valeurs de l’indicateur national à la suite d’une confusion sur l’identification de la station suivie au sein de la métropole de Lille. C’est en effet la station de Roubaix-Wattrelos qui est suivie depuis la semaine 30 de l’année 2022 et non la station de Lille-Marquette-Lez-Lille. Cette confusion ne modifie pas les valeurs de l’indicateur de la station elle-même (la taille de population n’est pas utilisée dans ce cadre) mais a un impact sur les valeurs de l’indicateur national qui utilise une moyenne pondérée par la taille de population de chaque station. L’impact sur le suivi des tendances est cependant négligeable étant donné que les tailles de population sont du même ordre de grandeur. L’ensemble des valeurs de l’indicateur national ont ainsi été recalculées.

paramètres de régression

Posté le 9 octobre 2023
serait il possible de connaitre les paramètres utilisés pour la régression LOESS ? l'objectif serait d'utiliser les mêmes sur d'autres séries pour permettre des comparaisons.
Posté le 10 octobre 2023
Santé publique France a mis en œuvre une procédure spécifique pour les personnes souhaitant mettre en œuvre une étude ou recherche scientifique à partir des données issues de ses bases de données de surveillance, d'étude, de programme de prévention qu’elle met en œuvre. Pour plus d’informations et accéder au formulaire de demande, nous vous invitons à consulter la page suivante : https://www.santepubliquefrance.fr/nous-contacter/acces-aux-documents-administratifs-et-aux-donnees-scientifiques2
Posté le 5 novembre 2023
Bonjour, le suivi des copies du COVId19 en ile de france dans les eaux usées font apparaitre un pic avec sum EAU alors que les données transmises à l'ARS par Sebastien Wurtzer basé sur un calibrage basé sur des indicateurs plus fiables d'excretions ( pas sur l'azote mais sur la flore intestinale) selon la méthode https://www.sciencedirect.com/science/article/pii/S0048969722048392?ref=pdf_download ne font pas apparaitre ce pic. Est il possible de changer la méthodologie de normalisation. Le canada utilise aussi la méthode décrite https://twitter.com/rnaguru/status/1720531484300415275 .

données brutes

Posté le 9 octobre 2023
Bonjour, est-il envisageable d'avoir accès aux données brutes, résultats des mesures, avant construction de l'indicateur et lissage ? l'objectif serait d'étudier le bruit et l'effet de division par NH4