

Trois data analysts en formation chez DataScientest ont étudié le jeu de données issu issu de l'analyse du le trafic cycliste parisien, en pleine croissance durant le contexte de la pandémie de COVID-19. Ce article reprend la méthode employée durant leur étude, ainsi que leurs principales conclusions.
A la suite du premier confinement en France, Anne Hidalgo, Maire de Paris, a décidé de créer cinquante kilomètres de pistes cyclables dans la capitale. L’objectif est multiple : réduire le trafic de véhicules particuliers pour désengorger les voies routières, et par la même occasion réduire l’impact écologique du transport de personnes, et enfin décongestionner les transports en commun.
Cette prise de position pro-vélo a été amorcée depuis longtemps. Cependant, elle a été amplifiée soudainement sous le contexte de la pandémie. Aujourd’hui, il suffit de descendre dans la rue pour faire ce constat : le vélo est le nouveau roi de Paris. Il n’y en a jamais eu autant dans la capitale française.
Trois étudiants issus de la formation Data Analyst de Datascientest ont étudié et quantifié l’évolution du trafic cycliste à partir des données collectées et disponibles sur le site de la Mairie de Paris, pour la période du 1er septembre 2019 au 31 décembre 2020. Nous vous proposons un bref résumé de leurs recherches.
Le trafic est-il le même partout ?
Les datas analystes ont décidé de considérer un nouvel indicateur clé (« KPI ») pour standardiser les résultats des 69 sites de comptage des données : le comptage moyen/site/heure.
Ils ont ensuite programmé une carte dynamique à l’aide de Folium, à laquelle ils ont ajouté un modèle de clustering par classification non supervisée : la méthode de l’algorithme des K-Means, pour classer les sites de comptage selon l’intensité du trafic. L’apprentissage non supervisé est une classe de techniques d’apprentissage automatique qui utilise un ensemble de données non-étiquetées ou non-labellisées. Cette classe permet, à partir d’un ensemble d’observations, de créer des groupes d’individus de telle sorte que les individus d’un groupe donné aient tendance à être similaires, et en même temps aient tendance à être différents des individus des autres groupes. Les data analystes ont réussi à prouver l’existence de fortes disparités géographiques concernant le flux de cyclistes.
Pour rappel, Folium combine Python et la librairie JavaScript Leaflet adaptée à la conception de carte interactive.

Évolution temporelle : quels facteurs influencent le trafic cycliste ?
Voici les chiffres à retenir sur l’évolution du trafic cycliste en fonction des facteurs périodiques, récurrents et exceptionnels.
![entrez le titre de l'image ici [C’est peut-être un détail pour vous, mais pour moi ça veut dire beaucoup.]](https://miro.medium.com/max/700/1*9xiORWIF-KcVvYGcJIR7JQ.png)
Cela leur a permis de sortir d’une part des facteurs récurrents entraînant une diminution du trafic comme les jours chômés et la météo défavorable.
D’autres part, des facteurs exceptionnels entraînent une augmentation du trafic comme les grèves et à la pandémie rendant les trajets en transports en commun ou en véhicule particulier plus compliqués.
Trafic & Accidents de vélos : quelles relations ?
Les data analysts ont analysé le trafic par heure pour relever les heures de pointe et les heures plus calmes. Avant d'analyser la temporalité des accidents. Cela leur a permis de conclure que les heures de pointe ne sont pas les plus accidentogènes. En effet, en journée, les heures de pointe (8 à 9h du matin et 18 à 19h du soir) ont un ratio Accidents-Trafic sous la moyenne, ce qui en fait des heures peu accidentogènes. A l’inverse, c’est durant les horaires de nuit qu’on observe des ratios plus élevés, 3h du matin étant l’heure la plus accidentogène.
La p-value du test ANOVA est inférieure à 5%, on rejette donc l'hypothèse selon laquelle le comptage moyen/site/heure n'influe pas sur le nombre d'accidents à Paris/heure.
L’objectif du test ANOVA est de conclure sur l’influence d’une variable explicative catégorielle sur la loi d’une variable continue à expliquer. Ce test est pertinent pour étudier les relations entre variables quantitatives et qualitatives.

Prédiction du trafic cycliste sur les derniers mois de la période

Métadonnées :
13K
3K
3
4
Il n'y a pas d'autres réutilisations du même créateur.