« On l’a pas en format ordinateur »

Bookmark and Share


Nicolas Kayser-Bril, data journaliste et blogueur invité, propose un retour d’expérience sur un projet qu’il publiera au printemps prochain

Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).

L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.

Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.

Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).

La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.

Exemple imaginaire :

Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »

Donnée structurée :

Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.

La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».

Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.

Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).

Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).

Auteur : Nicolas Kayser-Bril

Creative Commons License

Illustration : www.photo-libre.fr
Publicités

5 Responses to “« On l’a pas en format ordinateur »”


  1. 1 Benoit Vidal 16 décembre 2009 à 10:46

    Pour informations, j’ai appris à l’OpenDataCamp l’existence d’un projet soutenu financièrement par le Secrétariat d’Etat à l’économie numérique appelé Data Publica, qui promet d’être une place de marché sur laquelle des organismes publics ou privés peuvent publier leur meta-données ou des API à leurs données, ainsi que la ou les licences sous lesquelles ils sont prêts à les mettre à la disposition des développeurs. Aucune idée sur la date de sortie.
    Il y a aussi NosDéputés.fr qui a ouvert ses données via http://www.regardscitoyens.org:5984/_utils/ (indisponibles à des fins commerciales).
    Au niveau mondiale, la libération des données semblent plus avancée. Il existe à ce titre des moteurs de recherches de datasets (données ouvertes) comme http://infochimps.org/ ou encore http://datamob.org/.

    Cela dit, il en faut plus !

  2. 2 Hubert Guillaud 16 décembre 2009 à 8:16

    Y’a pas de conclusion à un BarCamp Nicolas. 😉

    Y’a surtout des rencontres. 😉

  3. 3 Fabrice 17 décembre 2009 à 1:43

    Pour ce qui est de rendre structuré des données non structurés, la Sunlight Foundation a mis a disposition (e.g. en open source) un logiciel (destiné à etre utilisé en SAAS) permettant de crowdsourcer la structuration : une armée de bénévole est appelée, à partir de données non structurée, à remplir des formulaire donnant naissance aux même données, mais structurées.

    C’est assez bien foutu, avec des recoupements pour corriger et détecter des erreurs de saisie, rating de la qualité de saisie des participants, etc, etc.

    Une piste à étudier 🙂

  4. 4 Jeremie Baruch 23 décembre 2009 à 4:36

    Oui, quand on travaille au niveau local, les fonctionnaires sont souvent assez prônes à donner les informations qu’ils ont, à aider et rectifier, même s’ils ont des bdd un peu obsolètes. En revanche, dans les ministères, c’est clairement une autre paire de manche. Pourtant, les infos, ils les ont.
    Au ministère de l’Intérieur, je me suis fait balader de service en service (statistiques, presse, communication web, secretariat) pour finalement m’entendre dire « Vous savez monsieur, les fichiers excel, c’est à vous de faire votre travail de journaliste, les données vous pouvez les compiler tout seul en prenant les fichiers pdf un par un ». J’ai ri (jaune, 200k cellules à remplir à la main, je peux pas), ai remercié, ai raccroché en me demandant pourquoi l’Intérieur ne veut pas refiler des fichiers excel que je suis persuadé qu’ils ont…


  1. 1 « On l’a pas en format ordinateur » | Owni.fr Rétrolien sur 17 décembre 2009 à 5:58

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s




Articles les plus consultés

Inscrivez votre adresse e-mail pour vous abonner à ce blog et être averti de mes nouveaux posts par e-mail

Rejoignez 25 autres abonnés

Sélection de liens

Contact :

goulard.caroline@gmail.com

Blog Stats

  • 34,281 hits

Visuel d'en-tête : Photos Libres

%d blogueurs aiment cette page :