Identifiants des collectivités territoriales et leurs établissements

Informations

Licence
Licence Ouverte / Open Licence version 2.0
Fréquence
Inconnu
Date de création
22 juillet 2021
Date de modification
23 juillet 2021
Dernière mise à jour de ressource
22 juillet 2021

Extras

ID
60f960c36634406bff4aa249
Date de création
22 juillet 2021
Date de modification
23 juillet 2021

→ Motivations pour la création du jeu de données

L’analyse et la visualisation de données à l'échelle des collectivités et EPCI peuvent être entravées par le manque d’harmonisation des noms d’organisation entre les jeux de données provenant de différentes sources. Quelques exemples de variantes :

  • “Saône-et-Loire” versus “SAONE ET LOIRE”
  • “CA DE CHÂLONS-EN-CHAMPAGNE" versus “CHALONS EN CHAMPAGNE AGGLOMERATION”

Ainsi, lorsque l’on cherche à croiser des données territoriales de provenances différentes, la mise en correspondance n’est pas possible puisque les noms ne sont pas identiquement les mêmes. La solution consiste donc à utiliser, pour la jointure, des identifiants uniques : les numéros COG (Code Officiel Géographique) et/ou SIREN (Système national d'identification et du répertoire des entreprises et de leurs établissements). Le numéro SIREN est d’autant plus important qu’il est utilisé par l’INSEE pour identifier les EPCI, ces derniers n’ayant pas de COG. Cette correspondance, parfois difficile à produire, est essentielle pour limiter les frictions lors des croisements de données portant sur des territoires, c’est pourquoi nous avons décidé de publier ces jeux de données.

→ Composition du jeu de données

Les bases de données ci-dessous reprennent, pour chaque type d’organisation (régions, départements, communes et intercommunalités), les informations qui permettent de l’identifier. On retrouve ainsi les champs suivants ;

  • nom : nom de l’organisation
  • COG : code officiel géographique de l’INSEE (pour les collectivités uniquement), disponible avec 2 ou 3 digits dans le fichier des départements
  • SIREN : numéro de SIREN (pour les collectivités et les EPCI)
  • type : type d’organisation
    • REG=régions,
    • CTU=collectivités territoriales uniques,
    • DEP=départements,
    • COM=communes,
    • MET=métropoles,
    • EPT=établissements publics territoriaux,
    • CA=communautés d’agglomérations,
    • CU=communautés urbaines,
    • CC=communautés de communes
  • code_region : COG de la région dans laquelle se trouve l’organisation (départements, communes ou EPCI)
  • code_departement : COG du département dans lequel se trouve l’organisation (communes ou EPCI)
  • code_departement_3digits : COG du département avec 3 digits donc avec un "0" pour les départements de France métropolitaine (communes)

Ces différents champs sont disponibles pour les 4 niveaux géographiques, on a donc 5 fichiers:

  • identifiants-regions-YYYY : informations pour les régions
  • identifiants-departements-YYYY : informations pour les départements
  • identifiants-communes-YYYY : informations pour les communes
  • identifiants-collectivites-YYYY : informations pour les 3 niveaux de collectivités à savoir : régions + départements + communes
  • identifiants-epci-YYYY : informations pour les EPCI

Les fichiers sont disponibles au format CSV encodés en UTF-8, avec un séparateur virgule.

→ Processus de collecte des données

Les données sont extraites des comptes consolidés, collectés par l’observatoire des finances et de la gestion publique locales (OFGL) et mis à disposition sur leur portail data.
Dans les jeux de données des comptes consolidés chaque organisation est identifiée par son nom, ses identifiants COG et/ou SIREN ainsi que son type.
Pour limiter la taille de la base à l’import, seule 1 année (2020) et 1 agrégat (celui des dépenses totales) ont été sélectionnées, le but étant uniquement de récupérer les identifiants des organisations. Bien que les données des comptes consolidés récupérées concernent l’année 2020, les informations qui nous intéressent, c’est-à-dire celles qui permettent d’identifier les collectivités et EPCI, sont elles à jour de l’année 2021, c’est pourquoi les différents fichiers sont datés de cette année.
Lors de la prévisualisation des fichiers, les "0" n'apparaissent pas pour les COG de 1 à 9, mais ils sont bien présents lorsque l'on télécharge la base.
Le processus de collecte a été réalisé en juin 2021.

→ Pré-traitement des données

Comme visible sur le script d’extraction, les données ont été importées puis traitées avant d’être exportées. Les manipulations consistent à garder les champs utiles énumérés ci-dessus, les renommer, les réordonner, trier les observations par COG croissant et mettre au bon format les variables. La standardisation du type d’organisation a aussi été faite pour garder 3 lettres pour les collectivités (REG, COM, DEP).
Toutes les manipulations ont été réalisées sous R avec les packages tidyverse pour l’import et les manipulations, et rio pour l’export.

→ Diffusion des jeux de données

Les jeux de données sont publiés sur le portail data.gouv.fr avec le compte Datactivist sous Licence ouverte comme les fichiers des comptes consolidés de l’OFGL.
Pour citer ce jeu de données, indiquer : source Datactivist (2021-07-20)

→ Maintenance des jeux de données

Idéalement, la mise à jour devrait être annuelle pour intégrer les modifications du découpage administratif (fusions de communes, modification des compositions d'EPCI...). Datactivist ne s'engage pas à réaliser cette mise à jour, mais met à disposition les scripts permettant de générer de nouvelles versions..
En cas de question ou de problème, il sera possible de contacter diane@datactivist.coop ou de poster un commentaire ci-dessous.

→ Considérations légales et éthiques

Le jeu de données d’origine a été publié par l’OFGL sous licence ouverte, les informations qu’il contient peuvent donc être utilisées par toute personne, physique ou morale, qui le souhaite. Les données, de nature administrative et géographique, portent sur des collectivités territoriales et leurs établissements, c’est pourquoi leur collecte, ainsi que leur diffusion ne pose aucun problème éthique.

Ressources 5

Voir aussi : ressources communautaires
0 téléchargements

identifiants-regions-2021.csv

Disponible
Type
Fichier principal
Type MIME
text/csv
sha1
7429fa4d183597fd4f1f99be9b03f177c63ddcc4
Créée le
22 juillet 2021
Modifiée le
22 juillet 2021
Publiée le
22 juillet 2021
0 téléchargements

identifiants-departements-2021.csv

Disponible
Type
Fichier principal
Type MIME
text/csv
sha1
02b0e71a12973a0f3f78d2917d884247988767d2
Créée le
22 juillet 2021
Modifiée le
22 juillet 2021
Publiée le
22 juillet 2021
0 téléchargements

identifiants-communes-2021.csv

Disponible
Type
Fichier principal
Type MIME
text/csv
sha1
380e82274ddcc8ef2c22a3e9a5a62826bbe7d742
Créée le
22 juillet 2021
Modifiée le
22 juillet 2021
Publiée le
22 juillet 2021
0 téléchargements

identifiants-collectivites-2021.csv

Disponible
Type
Fichier principal
Type MIME
text/csv
sha1
fec7c7618066e474d855cdca5f3a6a18bb02c6d0
Créée le
22 juillet 2021
Modifiée le
22 juillet 2021
Publiée le
22 juillet 2021
0 téléchargements

identifiants-epci-2021.csv

Disponible
Type
Fichier principal
Type MIME
text/csv
sha1
6208725b3135308049f3547d6eb20fffe88d0f9a
Créée le
22 juillet 2021
Modifiée le
22 juillet 2021
Publiée le
22 juillet 2021

Embed

Vous pouvez facilement intégrer ce jeu de données sur votre site en collant cet extrait de code dans votre page html.

Ressources communautaires 0

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Réutilisations 0

Vous avez réutilisé ces données et publié un article, une infographie, ou une application ? C'est le moment de vous faire connaître ! Référencez votre travail en quelques clics et augmentez votre visibilité.

Discussions 0

Discussion entre l'organisation et la communauté à propos de ce jeu de données.