Data Analyse – Cas du trafic cycliste à Paris

Published on 15 de marzo de 2021 by DataScientest

Information

Tipo
Papel
Etiquetas
cyclisme data datavisualisation deconfinement paris

Trois data analysts en formation chez DataScientest ont étudié le jeu de données issu issu de l'analyse du le trafic cycliste parisien, en pleine croissance durant le contexte de la pandémie de COVID-19. Ce article reprend la méthode employée durant leur étude, ainsi que leurs principales conclusions.

Cas d'usage : le trafic cycliste dans la capitale française

A la suite du premier confinement en France, Anne Hidalgo, Maire de Paris, a décidé de créer cinquante kilomètres de pistes cyclables dans la capitale. L’objectif est multiple : réduire le trafic de véhicules particuliers pour désengorger les voies routières, et par la même occasion réduire l’impact écologique du transport de personnes, et enfin décongestionner les transports en commun.

Cette prise de position pro-vélo a été amorcée depuis longtemps. Cependant, elle a été amplifiée soudainement sous le contexte de la pandémie. Aujourd’hui, il suffit de descendre dans la rue pour faire ce constat : le vélo est le nouveau roi de Paris. Il n’y en a jamais eu autant dans la capitale française.

Trois étudiants issus de la formation Data Analyst de Datascientest ont étudié et quantifié l’évolution du trafic cycliste à partir des données collectées et disponibles sur le site de la Mairie de Paris, pour la période du 1er septembre 2019 au 31 décembre 2020. Nous vous proposons un bref résumé de leurs recherches.

Visualisation du trafic par cartographie dynamique à l’aide de la bibliothèque Folium de Python

Le trafic est-il le même partout ?
Les datas analystes ont décidé de considérer un nouvel indicateur clé (« KPI ») pour standardiser les résultats des 69 sites de comptage des données : le comptage moyen/site/heure.

Ils ont ensuite programmé une carte dynamique à l’aide de Folium, à laquelle ils ont ajouté un modèle de clustering par classification non supervisée : la méthode de l’algorithme des K-Means, pour classer les sites de comptage selon l’intensité du trafic. L’apprentissage non supervisé est une classe de techniques d’apprentissage automatique qui utilise un ensemble de données non-étiquetées ou non-labellisées. Cette classe permet, à partir d’un ensemble d’observations, de créer des groupes d’individus de telle sorte que les individus d’un groupe donné aient tendance à être similaires, et en même temps aient tendance à être différents des individus des autres groupes. Les data analystes ont réussi à prouver l’existence de fortes disparités géographiques concernant le flux de cyclistes.

Pour rappel, Folium combine Python et la librairie JavaScript Leaflet adaptée à la conception de carte interactive.

Représentation graphique en 2 dimensions à l’aide d’une courbe (Bibliothèque Matplotlib)

Évolution temporelle : quels facteurs influencent le trafic cycliste ?

Voici les chiffres à retenir sur l’évolution du trafic cycliste en fonction des facteurs périodiques, récurrents et exceptionnels.

Cela leur a permis de sortir d’une part des facteurs récurrents entraînant une diminution du trafic comme les jours chômés et la météo défavorable.
D’autres part, des facteurs exceptionnels entraînent une augmentation du trafic comme les grèves et à la pandémie rendant les trajets en transports en commun ou en véhicule particulier plus compliqués.

Calcul de la p-value du test ANOVA pour analyser la dépendance entre le trafic horaire et le nombre d’accidents par heure (test de dépendances statistiques)

Trafic & Accidents de vélos : quelles relations ?
Les data analysts ont analysé le trafic par heure pour relever les heures de pointe et les heures plus calmes. Avant d'analyser la temporalité des accidents. Cela leur a permis de conclure que les heures de pointe ne sont pas les plus accidentogènes. En effet, en journée, les heures de pointe (8 à 9h du matin et 18 à 19h du soir) ont un ratio Accidents-Trafic sous la moyenne, ce qui en fait des heures peu accidentogènes. A l’inverse, c’est durant les horaires de nuit qu’on observe des ratios plus élevés, 3h du matin étant l’heure la plus accidentogène.

La p-value du test ANOVA est inférieure à 5%, on rejette donc l'hypothèse selon laquelle le comptage moyen/site/heure n'influe pas sur le nombre d'accidents à Paris/heure.

L’objectif du test ANOVA est de conclure sur l’influence d’une variable explicative catégorielle sur la loi d’une variable continue à expliquer. Ce test est pertinent pour étudier les relations entre variables quantitatives et qualitatives.

Modèle de prédiction

Prédiction du trafic cycliste sur les derniers mois de la période

  • L’objectif : prédire la variable cible Comptage/heure/site.
  • Choix des variables : ajout de 3 variables explicatives (Vacances de Noël, Jours fériés, Jour de la semaine)
  • Choix du modèle : régression linéaire, le plus robuste parmi les 8 modèles de régression testés.
    Le principe de la régression linéaire est très simple. On a un ensemble de points et on cherche la droite qui correspond le mieux à ce nuage de points. C’est donc simplement un travail d’optimisation que l’on doit faire. Ainsi, la régression linéaire est souvent utilisée comme un moyen de détecter une éventuelle dépendance linéaire entre 2 variables. Elle sert aussi souvent lorsqu’il s’agit de faire des prédictions.
  • Entraînement sur 12 mois (d’octobre 2019 à septembre 2020) et test sur 4 mois (de septembre à décembre 2020)
  • Performance ++ : R² train/test = 0.92 / 0.91 - RMSE train/test = 34.2 / 31.7
  • Représentation graphique :

Conjunto de datos revisado 1

Embed

You can easily embed this reuse on your website by pasting this snippet in your html page.

Discussions 0

Discussion between the organization and the community about this dataset.

More reuses