Expérimentation autour d’un serveur MCP pour datagouv

Dans une logique d’exploration et d’apprentissage continu, nous expérimentons un serveur MCP pour datagouv afin de faciliter l'usage des données par les chatbots d’IA. L’objectif est de comprendre ce que ce protocole apporte à l’accès aux données publiques, tout en restant attentifs à ses limites.

Qu’est-ce qu’un serveur MCP ?

MCP, pour Model Context Protocol, est un protocole standard ouvert conçu pour connecter des modèles d’intelligence artificielle, notamment des grands modèles de langage ou des agents conversationnels, à des logiciels, outils, services et sources de données externes.

Introduit par Anthropic (maison mère de Claude) fin 2024, il propose un cadre commun pour exposer des fonctionnalités sous forme de tools, appelables de manière structurée par les modèles. L’objectif est de faciliter des interactions plus contextualisées avec des systèmes existants, sans multiplier les intégrations spécifiques.

Pourquoi datagouv s’y intéresse ?

Cette expérimentation vise à tester, de manière encadrée, de nouvelles façons d’interroger et de valoriser les données publiques via des interfaces conversationnelles.

À ce stade, le serveur MCP de datagouv fonctionne uniquement pour explorer les données publiques ouvertes en lecture, sans autoriser de modification. À terme, l’ambition est de tester également des usages pour éditer et publier de nouvelles données sur datagouv, toujours avec prudence, et en s’appuyant sur des modèles souverains.

Les tools disponibles

Le serveur MCP de datagouv expose plusieurs tools, s’appuyant sur trois API de la plateforme :

search_datasets : rechercher des jeux de données ;
get_dataset_info : accéder aux métadonnées d’un jeu de données ;
list_dataset_resources : lister les ressources associées ;
get_resource_info : consulter les métadonnées d’une ressource ;
query_resource_data : interroger directement certaines données ;
download_and_parse_resource : télécharger et analyser une ressource ;
get_metrics : accéder à des indicateurs d’usage.

Le code du serveur est accessible publiquement sur ce lien.

Un cadre expérimental qui appelle à la prudence

Ce type de dispositif est difficile à auditer. Les modèles de langage peuvent produire des réponses incomplètes, approximatives ou erronées. Ils ne constituent en aucun cas une source officielle ou fiable en tant que telle.

Par ailleurs, il existe de nombreux serveurs MCP se présentant comme liés à data.gouv.fr sans être officiels. Une vigilance particulière est donc nécessaire quant aux outils utilisés et à leur provenance.

Et maintenant ?

N’hésitez pas à tester cette expérimentation et à nous partager vos retours, qu’ils soient positifs ou critiques. Ils nous aideront à mieux comprendre les usages et à orienter la suite des travaux ! Les modalités de test et d’utilisation sont décrites dans le dépôt GitHub du projet.