Parfois, au hasard des tableaux croisés dynamiques et des vérifications, on tombe sur une aberration dans les chiffres. Alors on vérifie auprès de la source… Et parfois, encore une fois, c’est la source qui s’est trompée et qui corrige bien volontiers son erreur. C’est ce qui m’est arrivé avec la SNCF cet été.
“Hey, faudrait creuser la base de données de la SNCF sur les objets trouvés. Il y a des fauteuils roulants dans le lot, c’est assez dingue…Comment on peut oublier son fauteuil roulant dans le train?” Voilà. C’est ce genre de remarque qui, jour après jour, allonge ma liste de base de données à explorer. Des plus sérieuses aux plus WTF (comme ces témoignages de personnes ayant vu Bigfoot, que je rêve de croiser avec tout et surtout n’importe quoi), elles sont légion. Et un jour, une fenêtre de tir se présente. Comme au Figaro, quand un collègue a lancé une série de “Datas d’été”, où l’on parlerait des chiffres des vacances, des transports, de la plage, etc. Alors j’ai creusé les données disponibles sur la plateforme open data de la SNCF, et ça a donné ce résultat final. Satisfaisant. Mais perfectible. Mais satisfaisant. Mais… (ad libitum)
J’aurais aimé aller plus loin sur les spécificités des mois de juillet-août, pondérer les chiffres en fonction de l’évolution du nombre de voyageurs mais la SNCF ne donne pas la fréquentation mensuelle de ses gares, ces données étant trop “sensibles”. Mais j’aimerais aussi être plus grande (sans talons), gagner à l’Euromillions, passer ma vie à nager avec les requins-baleines et parler russe sans effort: on n’a pas toujours ce qu’on veut!
“Houston, on a un souci sur la plateforme open data de la SNCF”
Au fil des coups de pioche, j’ai surtout rencontré un cas de figure inédit pour moi: j’ai apporté ma petite contribution à cette base de données publique. Non, je n’ai perdu ni doudou ni luge dans un TGV. Je suis juste tombée sur une incohérence dans les chiffres. En moulinant les données, je trouvais un taux de restitution moyen des objets trouvés proche de 11%… alors que la SNCF le situe entre 30% et 35%, selon les années. Un tel écart m’a mis la puce à l’oreille. Dans ces cas-là, rien de tel qu’un petit coup de fil, pour confronter les avis entre humains, sans formule Excel.
Et cela s’est avéré payant, grâce au service com’ de Gares et Connexions qui s’est montré très réactif. Peu après le chaos à la gare Montparnasse, le week-end du 14 juillet, c’est notable. “Ah oui, en effet, il y a un décalage sur la plateforme open data, on va vérifier.” Résultat: la base de données qui recensait officiellement les objets trouvés depuis mi-2013 mélangeait en réalité les objets trouvés et les déclarations de perte. Festival de doublons en perspective, sans possibilité de filtrer les données, aïe aïe aïe.
Les objets perdus, trouvés, restitués: de l’importance de filtrer les données
Une nouvelle colonne a donc été ajoutée à la base pour permettre cette sélection, dans un premier temps. Puis les deux catégories ont carrément été séparées et présentées dans deux bases de données distinctes sur la plateforme open data: objets trouvés et déclarations de perte. Du coup, la base de données sur la restitution de ces objets a disparu en tant que telle, mais les données sont encore présentes dans la base générale sur les objets trouvés.
“Vous avez contribué au contrôle indispensable à toute politique d’open data !”, m’a gratifiée mon contact à la SNCF. Youpi! Une première pour moi, et j’en suis assez fière. Finalement, je n’ai pas intégré les déclarations de perte dans l’infographie. Le canevas général était déjà prêt et le temps manquait. Mais j’y ai quand même jeté un coup d’oeil… J’ai noté qu’il y a plus de fauteuils roulants aux objets trouvés que de fauteuils roulants déclarés perdus… Ces miracles ne se passent même pas à Lourdes. De plus en plus mystérieux! On a jamais fini de creuser.
[…] vous en ai déjà parlé sur Lady Data, j’en remets une couche: cet ensemble sur les objets trouvés de la SNCF me tient vraiment à […]