Depuis le 26 septembre, le ministère des affaires sociales et de la santé teste de nouveaux systèmes d’étiquetage nutritionnel. A cette occasion, nous avons analysé le contenu des produits alimentaires vendus dans la grande distribution. Une idée simple, mais dont l’application ne fut pas si facile.

Notre première idée a été d’extraire automatiquement les données présentes sur les principaux sites Internet des géants de la grande distribution. L’avantage d’un tel procédé aurait été de récupérer l’intégralité des données (nom du produit, catégorie, prix, tableau nutritionnel, ingrédients), complètes et bien structurées. Mais la copie d’une base de données, pourtant complètement publique, n’est pas toujours légale. En l'occurrence, ici, cela ne l'était pas puisque la création de la base de données des produits par les distributeurs constituaient un investissement financier et humain protégé par la loi.

Comment travailler sur une base de données de produits sans utiliser celles présentes sur les sites de distributeurs ? La solution se trouve dans les bases de données avec des licences ouvertes. C’est le cas d’Open Food Facts, une base de données collaborative créée en 2012. Disponible sous la Open Database License (ODBL), les données étaient exploitables immédiatement, gratuitement et de manière libre. La base a également l’avantage de rassembler plus de 66 000 produits achetés en France.


Discussions

Discussion between the organization and the community about this dataset.