Base SIRENE des établissements (SIRET) - géolocalisée avec la Base d'Adresse Nationale (BAN)

Description

Ce jeu de donnée est un enrichissement du jeu de données de l'INSEE Base Sirene des entreprises et de leurs établissements (SIREN, SIRET).

Celui-ci enrichit la base originelle de la manière suivante :

  • Décomposition du fichier StockEtablissement par maille géographique : départements et communes.

  • Ajout d'un certain nombre de colonnes relatives à la géolocalisation des établissements basés sur le score de proximité le plus pertinent entre l'adresse indiquée dans la base SIRENE et la Base d'Adresse Nationale ou les Points d'Intérêts d'Openstreetmap.

    • Champ longitude : longitude de l'établissement
    • Champ latitude : latitude de l'établissement
    • Champ geo_score : score de confiance retourné par le géocodeur addok (entre 0 et 1, plus le score est haut, plus le géocodage semble pertinent)
    • Champ geo_type : type d'adresse trouvée
    • Champ geo_adresse : libellé de l'adresse trouvée
    • Champ geo_id : identifiant de cette adresse dans la base source où elle a été trouvée (BAN ou POI)
    • Champ geo_ligne : quelle ligne d'adresse de la base SIRENE a pu être géocodée (G=géographique, D=déclarée, N = normalisée)
    • Champ geo_l4 : ligne 4 à la norme AFNOR adresse
    • Champ geo_l5 : ligne 5 à la norme AFNOR adresse

Le traitement permettant la production de ce jeu de données est réalisé par Etalab. Celui-ci est très largement inspiré des précédents travaux de Christian Quest disponible ici. Ce traitement s'appuie sur le géocodeur Addok.

Ce jeu de données est utilisé dans le moteur de recherche de l'annuaire des entreprises et au sein de son api (https://api.gouv.fr/les-api/api-recherche-entreprises).

Producteur
Dernière mise à jour
4 décembre 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(78 %)
  • Couverture temporelle non renseignée

  • Certains fichiers ne sont pas disponibles

Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

7 discussions

Différences entre les géocodages

Posté le 3 septembre 2025
Bonjour, je cherche à comprendre la différence entre les 3 géocodages différentes du stock établissements. - Le premier est celui présent dans le stock établissement "standard". Je crois comprendre que seuls les établissements dont l'adresse vient de la BAN ont un géocodage, par contre je ne comprends pas pourquoi les autres n'en ont pas ? Une très grande proportion des adresses du stock établissement ont une correspondance unique et de très bonne qualité dans la BAN, pourquoi n'ont-elles pas d'id BAN et de positionnement ? Il me semble que jusqu'à il y a peu, il y avait beaucoup plus d'établissements géocodés dans le stock. - Le second est "Géolocalisation des établissements du répertoire SIRENE-pour les études statistiques", qui me semble être le plus complet et le plus officiel. - Et enfin le troisième est celui-ci, qui dérive du travail de Christian Quest il me semble. Mais ayant été repris "officiellement" par data.gouv.fr, il me semble faire doublon avec le précédent, ce que je trouve un peu perturbant. Quelle est la différence entre ce fichier et le stock établissement + géolocalisation des établissements ? Merci pour ces éclaircissements
Posté le 6 octobre 2025
Bonjour, je me permets une relance à ce sujet. Quelqu'un aurait-il une réponse à apporter ?
Posté le 6 octobre 2025
Producteur
Bonjour, les données publiées dans les jeux de données https://www.data.gouv.fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/ et https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques/ sont directement issus des traitements de l'INSEE. Pour tout renseignement, nous vous invitons à ouvrir une discussion sur leurs pages respectives afin que l'équipe qui produit les données vous réponde. Ce jeu de données est issu d'un traitement automatique maintenu par l'équipe de data.gouv.fr (disponible ici : https://github.com/datagouv/datagouvfr_data_pipelines/tree/main/data_processing/insee/sirene/geocodage), qui se base sur le fichier StockEtablissement_utf8.zip. Il a pour but d'affiner le géocodage fourni par l'INSEE.

problème ouverture fichier

Posté le 17 avril 2025
Bonjour, j'ai un souci avec avec le fichier geo_siret_07.csv.gz. Impossible de l'ouvrir pour récupérer les données. Auriez-vous la possibilité de le regénérer ? Par avance, merci beaucoup
Posté le 17 avril 2025
En fait, je viens de voir le même pb avec le même département l'année dernière, et votre réponse fonctionne toujours. Merci beaucoup https://www.data.gouv.fr/fr/datasets/base-sirene-des-etablissements-siret-geolocalisee-avec-la-base-dadresse-nationale-ban/#/discussions/65a7883f2977601b3f670b5a

Historicité des données ?

Posté le 31 janvier 2025
Bonjour, Je vous remercie à nouveau pour la mise à disposition de ces données. Serait-il possible d’accéder à l’historique de ces données, par exemple avec une répartition annuelle sur plusieurs années ? Cordialement
Posté le 25 juillet 2025
Producteur
Bonjour, vous pouvez retrouver l'historique par mois ici https://files.data.gouv.fr/geo-sirene/. Bien à vous.

Mise à jour d'avril

Posté le 30 avril 2024
Bonjour, j'aimerai savoir si le fichier sera MAJ. Avec la version 3.11, on a des champs de géocodages mais il manque des champs tel que geo_score et geo_type. Merci
Posté le 14 juin 2024
Bonjour, les fichiers viennent d'être mis à jour à partir des données INSEE de 1er juin.

Mise à jour d'avril manquante

Posté le 19 avril 2024
Bonjour Le jeu de donnée n'a pas été mis à jour en avril. Est-ce un problème temporaire ou la mise à jour est-elle suspendue ?
Posté le 30 avril 2024
Bonjour, Dans sa nouvelle version de publication 3.11, l'INSEE a ajouté le géocodage directement dans le fichier d'origine, ce qui rend ce jeu de données superflu. Nous vous invitons à utiliser le flux de l'INSEE : https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/. Pour plus d'informations : https://www.insee.fr/fr/information/7765199. Bonne journée.
Posté le 2 mai 2024
Merci, je n'avais pas réalisé que la nouvelle version de la base était géocodée. Bonne journée !
Posté le 10 mai 2024
Bonjour J'ai essayé la version 3.11 avec géocodage, mais celui-ci est très loin d'atteindre la qualité et surtout la couverture du jeu de données etalab "géolocalisé avec la BAN". Enormément d'établissements ayant pourtant une adresse correcte et retournant un résultat dans l'API adresse n'ont pas de coordonnées. Un simple exemple parmi des dizaines de milliers : 00545011900036 et 00554027300025
Posté le 14 juin 2024
Bonjour, les fichiers viennent d'être mis à jour à partir des données INSEE de 1er juin.

Le fichier de l'ardèche est corrompu

Posté le 17 janvier 2024
Bonjour, j'ai utilisé de nombreux fichiers de certains départements sans aucun problème. En revanche, j'ai l'impression que le fichier geo_siret_07.csv est corrompu. Je n'arrive pas à l'extraire de l'archive. Merci pour votre aide. Bien cordialement, Alexandre
Posté le 17 janvier 2024
Bonjour, je viens de faire le test de mon côté avec WinRAR : pas de problème, ni au téléchargement, ni au dézippage, ni à l'ouverture du fichier csv extrait. Pourriez-vous nous indiquer avec quels outils vous obtenez l'erreur svp ?
Posté le 17 janvier 2024
Bonjour, j'ai simplement dézippé avec Windows :) Ce qui est étonnant c'est que seul le fichier ardéchois pose problème ! (J'ai fait tous les fichiers Rhône Alpes) Maintenant vous avez raison, je n'ai pas pensé à utiliser un autre outil !! Je viens de le faire avec WinRAR et là ça fonctionne... Mon problème est "réglé" :) Un grand merci Alexandre

Base SIRENE des établissements (SIRET) - géolocalisée avec la Base d'Adresse Nationale (BAN) : fichier stock - ajout des 9 données en fin de fichier

Posté le 9 février 2023
Bonjour, Je recherche le format des 9 données qui ont été rajoutées dans le fichier stock des établissements pour le nouveau projet SIRENE 4. Serait-il possible d’avoir le format de chacune de ces 9 données suivantes ?: longitude,latitude,geo_score,geo_type,geo_adresse,geo_id,geo_ligne,geo_l4,geo_l5. Cordialement.