L’analyse et la visualisation de données à l'échelle des collectivités et EPCI peuvent être entravées par le manque d’harmonisation des noms d’organisation entre les jeux de données provenant de différentes sources. Quelques exemples de variantes :
“Saône-et-Loire” versus “SAONE ET LOIRE”
“CA DE CHÂLONS-EN-CHAMPAGNE" versus “CHALONS EN CHAMPAGNE AGGLOMERATION”
Ainsi, lorsque l’on cherche à croiser des données territoriales de provenances différentes, la mise en correspondance n’est pas possible puisque les noms ne sont pas identiquement les mêmes. La solution consiste donc à utiliser, pour la jointure, des identifiants uniques :
Cette correspondance, parfois difficile à produire, est essentielle pour limiter les frictions lors des croisements de données portant sur des territoires, c’est pourquoi nous avons décidé de publier ces jeux de données.
Les bases de données ci-dessous reprennent, pour chaque type d’organisation (régions, départements, communes et intercommunalités), les informations qui permettent de l’identifier. On retrouve ainsi les champs suivants ;
nom : nom de l’organisation
COG : code officiel géographique de l’INSEE (pour les collectivités uniquement), disponible avec 2 ou 3 digits dans le fichier des départements
SIREN : numéro de SIREN (pour les collectivités et les EPCI)
type : type d’organisation
REG=régions,
CTU=collectivités territoriales uniques,
DEP=départements,
COM=communes,
ARR=arrondissements (les arrondissements ont été ajoutés pour les villes de Marseille, Lyon et Paris),
MET=métropoles,
EPT=établissements publics territoriaux,
CA=communautés d’agglomérations,
CU=communautés urbaines,
CC=communautés de communes
code_region : COG de la région dans laquelle se trouve l’organisation (départements, communes ou EPCI)
code_departement : COG du département dans lequel se trouve l’organisation (communes ou EPCI)
code_departement_3digits : COG du département avec 3 digits donc avec un "0" pour les départements de France métropolitaine (communes)
population : nombre d'habitants vivants dans l'organisation
code_postal : code postal correspondant, uniquement pour les communes (pour Marseille, Paris et Lyon c'est le code postal du 1er arrondissement qui a été mis)
Ces différents champs sont disponibles pour 4 niveaux géographiques. 5 fichiers sont publiés :
identifiants-regions-YYYY : informations pour les régions
identifiants-departements-YYYY : informations pour les départements
identifiants-communes-YYYY : informations pour les communes
identifiants-collectivites-YYYY : informations compilées pour les 3 niveaux de collectivités (régions, départements et communes)
identifiants-epci-YYYY : informations pour les EPCI
Les fichiers sont disponibles au format CSV encodés en UTF-8, avec un séparateur virgule.
Les données sont extraites des comptes consolidés, collectés par l’observatoire des finances et de la gestion publique locales (OFGL) et mis à disposition sur leur portail data.
Dans les jeux de données des comptes consolidés, chaque organisation est identifiée par son nom, ses identifiants COG et/ou SIREN, ainsi que son type.
Pour limiter la taille de la base à l’import, seule 1 année (2020) et 1 agrégat (celui des dépenses totales) ont été sélectionnées, le but étant uniquement de récupérer les identifiants des organisations. Bien que les données des comptes consolidés récupérées concernent l’année 2020, les informations qui nous intéressent, c’est-à-dire celles qui permettent d’identifier les collectivités et EPCI, sont elles à jour de la dernière année de mise à jour, c’est pourquoi les différents fichiers sont datés de cette année.
Ces données ont été enrichies de la base officielle des codes postaux pour récupérer le code postal associé à chaque commune, afin de rassembler en un fichier, tous les ids permettant l'identification des communes (code INSEE, code SIREN et code postal).
Lors de la prévisualisation des fichiers, les "0" n'apparaissent pas pour les COG de 1 à 9, mais ils sont bien présents lorsque l'on télécharge la base.
Le processus de collecte a été réalisé initialement en juin 2021.
Comme visible sur le script d’extraction, les données ont été importées puis traitées avant d’être exportées. Les manipulations consistent à garder les champs utiles énumérés ci-dessus, les renommer, les réordonner, trier les observations par COG croissant et mettre au bon format les variables. La standardisation du type d’organisation a aussi été faite pour garder 3 lettres pour les collectivités (REG, DEP, COM, ARR).
Toutes les manipulations ont été réalisées sous R avec les packages tidyverse et jsonlite pour l’import et les manipulations, et rio pour l’export.
Les jeux de données sont publiés sur le portail data.gouv.fr avec le compte Datactivist sous Licence ouverte comme les fichiers des comptes consolidés de l’OFGL.
Pour citer ce jeu de données, indiquer : source Datactivist (2021-07-20)
Idéalement, la mise à jour devrait être annuelle pour intégrer les modifications du découpage administratif (fusions de communes, modification des compositions d'EPCI...). Datactivist ne s'engage pas à réaliser cette mise à jour, mais met à disposition les scripts permettant de générer de nouvelles versions.
En cas de question ou de problème, il sera possible de contacter diane@datactivist.coop ou de poster un commentaire ci-dessous.
Les jeux de données d’origine ont été publiés par l’OFGL et La Poste sous licence ouverte, les informations qu’il contiennent peuvent donc être utilisées par toute personne, physique ou morale, qui le souhaite. Les données, de nature administrative et géographique, portent sur des collectivités territoriales et leurs établissements, c’est pourquoi leur collecte, ainsi que leur diffusion ne pose aucun problème éthique.
0
0
Documentation des fichiers manquante