PARQUET - Données climatologiques de base - mensuelles - quotidiennes - horaires - 6 minutes (format parquet) PARQUET

Description

Format .parquet

Ce jeu de données regroupe les données au format .parquet.

Au lieu d'avoir un .csv.gz par département par période, tous les départements sont regroupés en un seul fichier par période.

Quand cela est possible (selon la taille), plusieurs périodes sont regroupées dans un même fichier.

Origine des données

Les données viennent de :

Préparation des données

Les fichiers terminant par .prepared ont subi de légères étapes de préparation :

  • suppression des espaces dans le nom des colonnes
  • typage (souple)

Les données sont typées selon :

  • date (AAAAMM, AAAAMMJJ, AAAAMMJJHH, AAAAMMJJHHMN): integer
  • NUM_POSTE : string
  • NOM_USUEL : string
  • LAT : float
  • LON : float
  • ALTI : integer
  • si la colonne commence par Q ("qualité") ou NB ("nombre") : integer
Mise à jour

Les données sont mises à jour au moins une fois par semaine (en fonction de mes disponibiltés) sur les données de la période latest-2024-2025.
Si vous avez des besoins spécifiques, n'hésitez pas à vous rapprocher de moi.

Réutilisations : Meteo Squad

Ces fichiers sont exploités dans l'application web Meteo Squad : https://www.meteosquad.com

Contact

Si vous avez des demandes spécifiques, n'hésitez pas à me contacter : contact@mistermeteo.com

Producteur
Maxime Pawlak
Ce jeu de données a été publié à l'initiative et sous la responsabilité de Maxime Pawlak.
Dernière mise à jour
16 janvier 2025

Vues

0

Téléchargements

0

Qualité des métadonnées:
Bon(100 %)
Votre question porte sur autre chose que ce jeu de données ? Visiter notre forum

2 discussions

Structure des fichiers - noms et types de colonne

Posté le 23 mai 2024
Merci pour cette belle initiative, qui rend la manipulation de ces données bien plus aisée. J'ai noté que certaines colonnes comme T, N, DHUMEC, SOL commençaient par un blanc, ce qui rend leur usage plus difficile dans une requête SQL. Qu'AAAAMMJJHH soit typée comme date (et non comme entier) serait un plus. Marginalement, les colonnes Qxxx pourraient être typées int plutôt que double.
Posté le 17 juin 2024
Producteur
Merci pour ce retour. Je vais le prendre en compte pour la suite
Posté le 20 juin 2024
Producteur
Bonjour Eric, J'ai corrigé les blancs et j'ai typé les Qxxx en int. Pour les dates, j'ai préféré laisser en int afin de rester au plus proche du format original de Météo France. Pour tester, j'ai créé cet outil : https://www.mistermeteo.com Merci encore pour votre retour
Posté le 22 juin 2024
Bonjour Maxime, merci pour cet affinage. Et votre site me parait très utile pour visualiser et extraire.

'prepared' ou non

Posté le 7 mai 2024
Bonjour et merci pour ce partage. La mention 'prepared' dans le nom de certains fichiers est elle signifiante ? Notamment, le fichier 'quot-previous-1950' existe en 2 versions avec et sans 'prepared'. Quant au fichier 'quot-1950-2022' il existe en 1 seule version sans 'prepared'. Je vais apprendre à utiliser polars, car il semble que ce soit la solution pour extraire les stations-années que je pourrai ensuite traiter dans pandas. Est ce la bonne voie selon vous ? J'espère que votre alternative sera pérenne, car les fichiers CSV ne sont pas du tout adaptés à ces gros volumes, et le fractionnement par département est peu pratique. Merci d'avance Loïc DUFFAR
Posté le 7 mai 2024
Producteur
Bonjour Loic, Les fichiers sans "prepared" sont une conversion basique, sans transformation, des fichiers csv vers parquet. J'ai ajouté "prepared" après sur d'autres données car je me suis rendu compte qu'il y a avait quelques étapes supplémentaires pour optimiser le fichier parquet : enlever les espaces dans le nom de certaines colonnes, indexés selon les attributs de la station... Tout n'est pas encore bien standardisé. J'ai prévu de le documenter. Sur ce jeu de données quotidiennes, les différences sont mineurs et les deux jeux de données équivalent. Dans le futur, je mettrai à jour que les versions prepared.
Posté le 7 mai 2024
Merci pour la réponse, Maxime Je suivrai donc l'évolution de votre jeu de données. Je comprends donc que la version "non prepared" n'est pas indexée. Le petit fichier '2022-2024 prepared ' est effectivement indexé de façon logique sur les métadonnées de la station ce qui est pratique, et les espaces inutiles présents dans le fichier CSV sont effectivement supprimés. Par contre je ne suis pas encore capable d'ouvrir le gros fichier "1950-2022" faute de solution pour l'instant. Mais je crains que ma question sur polars en tant que meilleure solution pour ouvrir les gros fichiers ait été trop simpliste pour appeler une réponse !-). Je voudrais seulement être sûr que c'est la bonne piste avant de me lancer dans l'apprentissage de polars, sachant que mon but est d'extraire un subset de taille adapté à la mémoire vive que je puissse traiter avec mon pandas habituel. Cordialement Loïc
Posté le 20 juin 2024
Producteur
Bonjour Loic, J'ai ajouté dans la description du jeu de données le détails pour les données "prepared". Je n'ai pas essayé avec polars, mais je ne doute pas que vous puissez l'ouvrir. Avez-vous essayé avec un fichier plus petit ? Si besoin de sélectionner une partie des données, j'ai créé cet outil : https://www.mistermeteo.com Merci encore de votre retour
Posté le 3 août 2025
Bonjour Maxime, Encore merci pour votre partage. Météo-France se devrait d'initier un partenariat avec vous (ou utiliser votre code de conversion s'il est open-source) pour pérenniser et améliorer ce jeu de données dont le format est bien plus adapté à un usage avancé que le ridicule format CSV qui n'est pertinent pour aucun utilisateur, lambda ou avancé. Pour accéder chaque mois aux données récentes, je suis malheureusement obligé d'utiliser le format CSV de la plateforme Météo-France, à l'aide de code python personnels qui demandent un développement coûteux en effort et en temps. Avec votre format, la plateforme meteo.data.gouv.fr pourrait proposer une version améliorée de votre jeu de données adaptée aux utilisateurs avancés utilisant pytho (ou R) : - mise à jour avec la même fréquence que le format CSV - correction des imperfections de votre jeu de données que vous avez vous même relevées après sa création au cours du Hackaton : -- suppression des blancs inutiles de certains champs, -- NUM_POSTE en chaine de caractère et non en entier (départements 01 à 09....) -- Champ AAAAMMJJ converti en type date (puisque votre jeu de données est un dataframe pandas) -- etc... Bien cordialement Loïc Duffar
Posté le 3 août 2025
Je me réponds à moi-même !-) au sujet de mon espérance que la solution PARQUET de Maxime Pawlak soitn disponible sur la plateforme meteo.data.gouv.fr avec la même fréquence que les fichiers CSV. En réalité la démarche est déjà commencée (je ne sais pas depuis quand). Cela semblait une bonne nouvelle, mais certains manques et défauts rend leur utilisation impossible. La démarche n'est visiblement pas terminées. - L’alternative PARQUET est « cachée ». Dans meteo.data Il faut cliquer sur le nom du fichier (et non sur le lien de téléchargement de l’archive CSV) puis sur « Téléchargement ». - Le nom des fichiers PARQUET ne permet pas d’identifier leur contenu (par exemple « 11b4f6ca-71eb-4865-b0e8-2901c1e83295.parquet »). Il faut donc les renommer à la main ce qui est rédhibitoire pour une utilisation professionnelle courante. - Certain fichiers PARQUET sont absents, pour les données de base que j’ai consultées : o 6 minutes : Aucun fichier PARQUET pour les départements consultés (04, 13, 83, 84) o Quotidien : Tous les fichiers PARQUET PREVIOUS sont manquants pour les départements consultés (04, 13, 83, 84) o Mensuel : fichier PARQUET absent pour le fichier LATEST du 84 (parmi les départements consultés 04, 13, 83, 84) - Les jeux de données PARQUET sont découpés en multiples fichiers, de la même façon que les fichiers CSV, ce qui ne se justifie plus pour ce format compact et rapide. o On pourrait par exemple regrouper toutes les périodes d’un département, o et même tous les départements et toutes les périodes pour les pas de temps les plus longs (au moins pour le MENSUEL). - Aucune amélioration des inconvénients déjà identifiées par Maxime Pawlak dans sa solution développée rapidement pendant le hackathon. Le code de Maxime a donc été utilisé tel quel, alors que les modifications souhaitables sont très faciles. o suppression des blancs inutiles de certains champs, o NUM_POSTE en chaine de caractère et non en entier (départements 01 à 09....) o Champ AAAAMMJJ converti en type date (puisque cette solution est un dataframe pandas) @ Maxime Pawlak , donc la bonne nouvelle c'est que votre solution a été adoptée par Météo France ! Mais il reste du travail pour que ce soit utilisable sur la plateforme meteo.data Je vais poster ce commentaire dans une discussion sur meteo.data, pour montrer à Météo-France que cette alternative sera appréciée. Cordialement Loïc Duffar
Mis à jour le 6 août 2025
Bonjour, Je me permets d'intervenir au sujet des fichiers parquet mis à disposition par data.gouv.fr : pour tous les fichiers tabulaires de la plateforme (i.e. pas uniquement pour ceux de Météo France), nous avons plusieurs traitements automatiques, dont notamment la mise en base de données afin de permettre le requêtage des données par API (cf https://www.data.gouv.fr/dataservices/api-tabulaire-data-gouv-fr-beta/) ainsi que la conversion du fichier en parquet (et potentiellement en d'autres formats) que vous pouvez retrouver dans l'onglet "Téléchargement" (NB : ce layout va probablement évoluer dans les prochains mois pour mieux mettre en valeur les différents formats de téléchargement). Ce processus n'est actif que si le fichier d'origine n'est pas "trop gros", ce qui explique pourquoi certains fichiers des jeux de données météo ne bénéficient pas de ce traitement, mais nous pouvons les passer en exception au cas par cas. Vous avez également la possibilité de récupérer les données climatologiques de base via l'API que nous avons mise en place pour la recherche guidée de meteo.data.gouv.fr (https://meteo.data.gouv.fr/form), par exemple : https://meteo-api.data.gouv.fr/api/clim/base_decad/09/csv/?num_postes=09224001,09042004,09289001&anneemin=2022&anneemax=2025 (avec quelques limitations), vous pouvez récupérer les données en construisant l'URL à partir des paramètres qui vous conviennent. Si la communauté estime que des expositions différentes des données seraient préférables, l'équipe de data.gouv.fr pourra envisager des traitements complémentaires pour permettre une meilleure consommation. N'hésitez pas à nous remonter cela via notre forum : https://forum.data.gouv.fr/. Pierlou Ramade, pour l'équipe de data.gouv.fr
Posté le 6 août 2025
Producteur
Bonjour, Effectivement, j'allais compléter en disant que la mise à disposition au format parquet est en train d'être mise en place sur la plateforme. Mon projet est issu d'un hackathon et il a participé à la prise de conscience de la pertinence du format parquet. En tout cas, je suis content de voir que mon travail rende service :)
Posté le 6 août 2025
Oui maxime c'est une très bonne nouvelle. Et j'ai préciés dans mon commentaire sur meteo.gouv que votre solution très pertinente avait été "développée rapidement dans le cadre du Hakaton". https://meteo.data.gouv.fr/datasets/6569b3d7d193b4daf2b43edc Je vois que mon ici sur data.gouv a suscité une réponse qui montre que la solution est en cours de mise en place et sera améliorée. C'est une bonne nouvelle. D'ailleurs mon commentaire apporte beaucoup plus de détails dans l'autre discussion sur meteo.data.(https://meteo.data.gouv.fr/datasets/6569b3d7d193b4daf2b43edc) Notamment, sur AAAAMMJJ à convertir en date, les nombres interprétés comme des string, et sur les valeurs manquantes codées de manières variables None, pd.NA et numpy.nan etc.....