Base SIRENE des établissements (SIRET) - géolocalisée avec la Base d'Adresse Nationale (BAN)

Description

Ce jeu de donnée est un enrichissement du jeu de données de l'INSEE Base Sirene des entreprises et de leurs établissements (SIREN, SIRET).

Celui-ci enrichit la base originelle de la manière suivante :

  • Décomposition du fichier StockEtablissement par maille géographique : départements et communes.

  • Ajout d'un certain nombre de colonnes relatives à la géolocalisation des établissements basés sur le score de proximité le plus pertinent entre l'adresse indiquée dans la base SIRENE et la Base d'Adresse Nationale ou les Points d'Intérêts d'Openstreetmap.

    • Champ longitude : longitude de l'établissement
    • Champ latitude : latitude de l'établissement
    • Champ geo_score : score de confiance retourné par le géocodeur addok (entre 0 et 1, plus le score est haut, plus le géocodage semble pertinent)
    • Champ geo_type : type d'adresse trouvée
    • Champ geo_adresse : libellé de l'adresse trouvée
    • Champ geo_id : identifiant de cette adresse dans la base source où elle a été trouvée (BAN ou POI)
    • Champ geo_ligne : quelle ligne d'adresse de la base SIRENE a pu être géocodée (G=géographique, D=déclarée, N = normalisée)
    • Champ geo_l4 : ligne 4 à la norme AFNOR adresse
    • Champ geo_l5 : ligne 5 à la norme AFNOR adresse

Le traitement permettant la production de ce jeu de données est réalisé par Etalab. Celui-ci est très largement inspiré des précédents travaux de Christian Quest disponible ici. Ce traitement s'appuie sur le géocodeur Addok.

Ce jeu de données est utilisé dans le moteur de recherche de l'annuaire des entreprises et au sein de son api (https://api.gouv.fr/les-api/api-recherche-entreprises).

Producteur
Dernière mise à jour
14 juin 2024

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(89 %)
  • Couverture temporelle non renseignée

6 discussions

problème ouverture fichier

Posté le 17 avril 2025
Bonjour, j'ai un souci avec avec le fichier geo_siret_07.csv.gz. Impossible de l'ouvrir pour récupérer les données. Auriez-vous la possibilité de le regénérer ? Par avance, merci beaucoup
Posté le 17 avril 2025
En fait, je viens de voir le même pb avec le même département l'année dernière, et votre réponse fonctionne toujours. Merci beaucoup https://www.data.gouv.fr/fr/datasets/base-sirene-des-etablissements-siret-geolocalisee-avec-la-base-dadresse-nationale-ban/#/discussions/65a7883f2977601b3f670b5a

Historicité des données ?

Posté le 31 janvier 2025
Bonjour, Je vous remercie à nouveau pour la mise à disposition de ces données. Serait-il possible d’accéder à l’historique de ces données, par exemple avec une répartition annuelle sur plusieurs années ? Cordialement

Mise à jour d'avril

Posté le 30 avril 2024
Bonjour, j'aimerai savoir si le fichier sera MAJ. Avec la version 3.11, on a des champs de géocodages mais il manque des champs tel que geo_score et geo_type. Merci
Posté le 14 juin 2024
Bonjour, les fichiers viennent d'être mis à jour à partir des données INSEE de 1er juin.

Mise à jour d'avril manquante

Posté le 19 avril 2024
Bonjour Le jeu de donnée n'a pas été mis à jour en avril. Est-ce un problème temporaire ou la mise à jour est-elle suspendue ?
Posté le 30 avril 2024
Bonjour, Dans sa nouvelle version de publication 3.11, l'INSEE a ajouté le géocodage directement dans le fichier d'origine, ce qui rend ce jeu de données superflu. Nous vous invitons à utiliser le flux de l'INSEE : https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/. Pour plus d'informations : https://www.insee.fr/fr/information/7765199. Bonne journée.
Posté le 2 mai 2024
Merci, je n'avais pas réalisé que la nouvelle version de la base était géocodée. Bonne journée !
Posté le 10 mai 2024
Bonjour J'ai essayé la version 3.11 avec géocodage, mais celui-ci est très loin d'atteindre la qualité et surtout la couverture du jeu de données etalab "géolocalisé avec la BAN". Enormément d'établissements ayant pourtant une adresse correcte et retournant un résultat dans l'API adresse n'ont pas de coordonnées. Un simple exemple parmi des dizaines de milliers : 00545011900036 et 00554027300025
Posté le 14 juin 2024
Bonjour, les fichiers viennent d'être mis à jour à partir des données INSEE de 1er juin.

Le fichier de l'ardèche est corrompu

Posté le 17 janvier 2024
Bonjour, j'ai utilisé de nombreux fichiers de certains départements sans aucun problème. En revanche, j'ai l'impression que le fichier geo_siret_07.csv est corrompu. Je n'arrive pas à l'extraire de l'archive. Merci pour votre aide. Bien cordialement, Alexandre
Posté le 17 janvier 2024
Bonjour, je viens de faire le test de mon côté avec WinRAR : pas de problème, ni au téléchargement, ni au dézippage, ni à l'ouverture du fichier csv extrait. Pourriez-vous nous indiquer avec quels outils vous obtenez l'erreur svp ?
Posté le 17 janvier 2024
Bonjour, j'ai simplement dézippé avec Windows :) Ce qui est étonnant c'est que seul le fichier ardéchois pose problème ! (J'ai fait tous les fichiers Rhône Alpes) Maintenant vous avez raison, je n'ai pas pensé à utiliser un autre outil !! Je viens de le faire avec WinRAR et là ça fonctionne... Mon problème est "réglé" :) Un grand merci Alexandre

Base SIRENE des établissements (SIRET) - géolocalisée avec la Base d'Adresse Nationale (BAN) : fichier stock - ajout des 9 données en fin de fichier

Posté le 9 février 2023
Bonjour, Je recherche le format des 9 données qui ont été rajoutées dans le fichier stock des établissements pour le nouveau projet SIRENE 4. Serait-il possible d’avoir le format de chacune de ces 9 données suivantes ?: longitude,latitude,geo_score,geo_type,geo_adresse,geo_id,geo_ligne,geo_l4,geo_l5. Cordialement.