Posts Tagged 'opendata'

Data journalism : pourquoi les médias français ne s’y mettent pas ?

Bookmark and Share

Pourquoi les médias français se sont-ils si peu saisis du data journalism, à la différence des médias anglosaxons ? Quelques éléments de réponses ont déjà été apportés : par Valérie Peugeot sur www.lavoixdudodo.info et par Elodie Castelli sur www.journalismes.info. Après les études de cas, je vous livre ici ma synthèse. L’occasion de vous faire partager les enseignements tirés de cinq entretiens, réalisés en janvier dernier avec Hubert Guillaud, Jean Marc Manach et Charles Népote de la Fing, avec Fabrice Epelboin de RWW France et avec Nicolas Voisin de Owni.fr.

Comment expliquer le peu d’empressement des rédactions françaises à s’emparer du journalisme de données ? Plusieurs facteurs se combinent, certains relèvent des rédactions, d’autres de leur environnement

Côté rédactions :

Des rédactions en manque de moyens financiers…

Tout d’abord, côté rédactions traditionnelles, la plupart consacrent très peu de ressources à la R&D, et donc à du journalisme d’expérimentation, comme de la visualisation de données. La presse quotidienne n’en a tout simplement pas les moyens, les pure players difficilement. La presse magazine ou le secteur audiovisuel pourraient peut-être parier sur le journalisme de données, mais la crise économique ne les incite pas à de tels investissements.

Quelques exceptions néanmoins : l’Express.fr a recruté deux documentalistes pour réfléchir sur la structuration de données (plus d’info sur le blog d’Eric Mettout) ; France 24 mène un gros travail autour du Web sémantique au sein de son Lab (plus d’info sur le blog de Mikiane)

… en manque de moyens humains

Les rédactions ne sont pas seulement appauvries sur le plan financier, elles manquent aussi de ressources humaines. Car le data journalism nécessite du temps et des compétences : en datamining, en statistiques, en développement, en web-design, en interaction design, en sémiologie visuelle…

Actuellement, personne en France n’a réussi à réunir le bon mix de compétences. Pourtant, c’est sans doute ce qui fait le succès des visualisations du nytimes.com depuis deux ans : le titre fait travailler ensemble des ingénieurs, des infographistes et des journalistes, tous payés le même salaire et sur un même pied d’égalité. Rien à voir avec l’état d’esprit des rédactions françaises, dans lesquelles les « informaticiens » sont déconsidérés.

Ce cloisonnement des rédactions est sans doute un peu moins prégnant lorsqu’on s’intéresse aux rédactions web, mais il n’en reste pas moins un frein au développement du data journalism en France.

… en manque de culture web

Tout simplement, les rédactions traditionnelles n’ont souvent pas l’intuition du data journalism. La plupart du temps, elles ont un train de retard par rapport aux développements du web. Les écoles de journalisme commencent juste à intégrer le journalisme d’innovation et le web dans leurs enseignements. Pour beaucoup des acteurs de ce secteur, cela reste encore un truc de « geek ».

… en manque d’approche statistique

Ce manque d’intuition n’est pas sans rapport avec une culture journalistique très française. Une certaine hagiographie du journalisme made in France prend racine dans l’opposition « facts vs fiction » : opposition entre le journalisme de faits à l’anglo-saxonne et le journalisme littéraire et d’opinion du pays d’Albert Londres. La mythologie journalistique française sacralise la belle plume et le subjectivisme. Sur ce terreau pousse la défiance de nombreux journalistes envers tout ce qui pourrait paraître trop rationaliste, trop technophile ou trop américain.

A ceci s’ajoute la faible culture mathématique, statistique et scientifique de bien des rédacteurs de presse généraliste.

Aversion à mettre les mains dans les données brutes, malaisance avec les valeurs chiffrées, crainte de voir les techniciens commander les rédactions : autant de sensations diffuses qui ne facilitent pas la reconnaissance du data journalism en France.

Pour trouver quelques affinités entre la visualisation de données et l’histoire française, il faut sortir du champ journalistique et se pencher sur celui de la sémiologie. En particulier, la sémiologie graphique, inventée en France par Jacques Bertin, aborde les problématiques de visualisation d’informations géographiques.

Des journalistes américains au service des communautés locales ?

Enfin, une dernière hypothèse pourrait expliquer l’affinité des médias anglosaxons avec le data-journalism. Les journalistes américains se considèrent peut-être plus comme étant au service d’une communauté.

Aux Etats-Unis, les journalisme de données s’est beaucoup développé à l’échelon local avec du crimemapping et des services pratiques (les horaires d’ouvertures des magasins, par exemple). La référence en la matière reste EveryBlock d’Adrian Holovaty : un « agrégateur-visualiseur » de données micro-locales (critiques de restaurants, prix de l’immobilier, etc.).

Les données jouent un rôle important dans la valorisation des territoires. Le journalisme de données, au niveau hyperlocal, peut ainsi être utilisé par les rédactions pour générer de la proximité avec les communauté d’habitants pour lesquelles elles travaillent.

Côté environnement :

Une autre dimension doit être prise en compte : le journalisme de données ne dépend pas uniquement des journalistes, mais également des données à leur disposition.

Une culture de la transparence différente entre la France et les pays anglo-saxons

Et, là aussi, la France est à la traine par rapport aux anglosaxons. Les Etats-Unis et la Grande Bretagne se sont illustrés par leurs mouvements d’ouverture des données : avec les sites gouvernementaux data.gov et data.gov.uk, mais aussi avec de puissants militants de la cause de l’opendata, la Sunlight Foundation aux Etats-Unis, et le datablog du Guardian en Grande Bretagne.

Ici encore, on pourrait invoquer un fossé culturel : la culture anglo-saxonne de la transparence dans la gestion publique n’a pas d’équivalent en France. La campagne « Give us back our crown jewels », portée par le Guardian en 2006, ne pourrait pas avoir d’écho sur nos terres républicaines. Pourtant elle a joué un rôle important dans la libération des données publiques en Grande Bretagne. Le Guardian a ainsi activement milité pour que les données collectées grâce à l’argent du contribuable britannique soient accessibles gratuitement, afin de stimuler l’innovation. Il a joué un rôle d’exemplarité en ouvrant ses propres bases de données (DataStore) et en organisant un concours d’applications basées sur ces données libérées. (Voir à ce sujet l’article de Jean Marc Manach « Les joyaux de la couronne n’appartiennent à personne »)

Pas de consensus sur la valeur économique de l’ouverture des données en France

Dans son plaidoyer pour l’ouverture des données, le Guardian insistait sur l’enjeu économique de l’ouverture des données publiques : une meilleure valorisation des données stratégiques, plus de services, plus d’opportunités commerciales, plus d’innovation, moins d’asymétrie informationnelle et donc des marchés plus efficients, et au final, un plus grand dynamisme économique.

En France, il n’y a pas de consensus sur la valeur économique des données publiques. Les entreprises dont l’activité repose sur la privatisation de données n’ont pas intérêt à leur ouverture. L’avantage économique de la libération des données ne s’est pas imposé face aux gains espérés de leur monétisation via la vente de licences. C’est ainsi, par exemple, que l’IGN continue à faire payer l’accès à une importante partie de ses bases de données. (voir ce précédent post pour plus d’info)

Les conditions juridiques de la réutilisation des bases de données

Sans aller jusqu’à dire que l’appareil juridique français est un frein à l’ouverture des données, il faut garder en tête certaines particularités de notre droit des bases de données.

Premier point : le droit d’auteur. Les données brutes ne sont pas, en elles-mêmes, soumises au droit d’auteur mais une base de données peut être protégée par le droit d’auteur si elle découle d’un acte de création intellectuelle, c’est-à-dire si elle témoigne d’une originalité caractérisée. L’auteur de la base de données jouit alors d’un monopole d’exploitation de son œuvre (droits patrimoniaux) ainsi que de droits au respect de l’intégrité de son œuvre et au respect de sa paternité sur l’œuvre (droits moraux).

Deuxième point : le droit des producteurs de bases de données. Lorsque la création d’une base de données nécessite un investissement financier, humain et matériel substantiel, le droit des producteurs reconnaît au créateur un droit de protection analogue à celui de l’auteur sur son œuvre. Cette disposition est destinée à protéger l’investissement des personnes qui prennent l’initiative et le risque économique de créer une base de données. Cette protection garantit au producteur de la base de données un monopole d’exploitation, il peut interdire toute extraction substantielle de données de sa base.

Pour plus de détails voir la très bonne synthèse de Didier Frochot sur les-infostratèges.com et l’étude de la jurisprudence par Bernard Lamon.

Troisième point : la CNIL et les dispositions relatives à la protection de la vie privée. Toute base de données impliquant des données nominatives et/ou personnelles doit faire l’objet d’une déclaration à la CNIL. La collecte et la conservation des données d’une telle base sont également soumises à conditions (voire le site de la CNIL pour plus d’info). De même, doit être soumis à la CNIL tout croisement de bases de données qui aboutirait à qualifier des données personnelles.

L’enjeu de la structuration des données

Enfin, l’ouverture des données repose avant tout sur un enjeu d’accessibilité. Certes, on trouve aujourd’hui de nombreuses données chiffrées sur des organismes publics ou privés. Mais bien souvent ces données sont perdues au milieu de fichiers pdf, éparpillées entre des masses de texte, scannées en format image… et lorsqu’il s’agit de croiser de bases de données, on se retrouve face à des formats disparates et peu malléables… bref, les données sont rarement structurées.

D’accord, la loi du 17 juillet 1978 reconnaît à tout citoyen français le droit d’obtenir communication des documents détenus par une administration.

D’accord, une autorité administrative dédiée, la CADA (commission d’accès aux documents administratifs), veille au bon respect de ce droit d’accès aux documents administratifs.

Mais rien n’oblige les administrations à communiquer leurs données sous format numérique, encore moins de façon structurée.

Sur ce sujet, l’expérience de Nicolas Kayser-Bril est édifiante (voir l’article « On l’a pas en format ordinateur »).

Creative Commons License

Illustration : http://www.sxc.hu/

Ce qu’aurait pu être le Sarkomètre du Nouvel Obs

Bookmark and Share

Avec son Sarkomètre, le Nouvel Obs a mis un pied dans les données structurées. Une avancée incontestable, mais si timide qu’elle souligne finalement l’ampleur du fossé  qui sépare encore la presse traditionnelle de la visualisation de données.

Reprenons. Le 1er février dernier, lenouvelobs.com publiait un tableau récapitulant, pour 113 promesses  formulées par Nicolas Sarkozy pendant la dernière campagne présidentielle, si l’engagement a été tenu, oublié ou engagé.

La base de données constituée par les journalistes comprend également, pour chaque promesse, sa thématique, la déclaration originelle du candidat Sarkozy, et un commentaire de la rédaction du Nouvel Observateur.

Il s’agit effectivement d’une démarche de structuration de données : publier dans un tableau ce qui d’ordinaire est publié par le Nouvel Obs sous forme d’article, de récit, en croisant des indicateurs (thème, promesse, déclaration, réalisation, commentaire) et des variables (les 113 promesses).

Le Nouvel Obs reprend ici la démarche de Politifact, avec son Obameter (The Obameter : Tracking Obama’s Campaign Promises), qui a noté plus de 500 promesses faites par Barack Obama pendant sa dernière campagne selon leur degré de réalisation (Promise Kept, Compromise, Promise Broken, Stalled, In the Works, Not yet rated).

Politifact est un projet de journalisme innovant lancé par Matt Waite au sein du St. Petersburg Time en 2008, pendant la campagne pour les élections présidentielles aux Etats-Unis : le site évaluait la véracité des propos tenus par les hommes politiques sur une échelle allant de « True » à « False » en passant par « Mostly True », « Half True » et « Barely True ».

Revenons d’abord sur le principal bon point du Sarkomètre : il a été publié via Socrata, une plateforme d’hébergement et de publication de bases de données. Avantages de la solution Socrata :

  • Interactive : l’interface de Socrata permet aux internautes de trier, de masquer ou de compiler les données par ligne ou par colonne.
  • Conversationnelle: les internautes peuvent noter et commenter la base de données
  • Virale : les internautes peuvent partager le Sarkomètre via Delicious, Digg, Facebook et Twitter
  • Ouverte : la base de données peut être librement publiée sur d’autres sites/blogs via un Social Data Player embeddable, il est possible de télécharger la base de donnée sous différent formats ou d’y accéder via l’API Socrata.

En passant par Socrata, le Nouvel Obs respecte tous les codes de l’open data. La base de donnée est libre, et cela représente une petite révolution dans un univers journalistique plutôt enclin à s’accrocher aux droits d’auteurs.

Maintenant cette belle avancée signalée, venons-en aux insuffisances.

Le tableau réalisé par le Nouvel Obs nous permet d’échapper à un article long, répétitif, encombré de formules destinées garder l’attention du lecteur tout en déroulant les 113 promesses. C’est déjà un beau progrès, mais le Nouvel Obs aurait pu aller beaucoup plus loin.

Le Sarkomètre ne nous permet pas de nous rendre compte instantanément que sur 103 promesses :

-31 ont été tenues

-39 ont été engagées

-43 ont été oubliées

Il ne nous permet pas de voir du premier coup d’œil que les thématiques ayant fait l’objet du plus grand nombre de promesses sont :

-La fiscalité (10 promesses)

-La famille (8 promesses)

-La santé (8 promesses)

-L’éducation (7 promesses)

Et que ces thématiques affichent des taux différents de conversion des promesses en engagements tenus :

-Fiscalité : promesses tenues à 40% (4 promesses tenues sur 10)

-Famille : promesses tenues à 0% (0 promesse tenue sur 8 )

-Santé : promesses tenues à 25% (2 promesses tenues sur 8 )

-Education : promesses tenues à 29% (2 promesses tenues sur 7)

Pour cela, il aurait fallu que le Nouvel Obs réfléchisse à la visualisation de sa base de données.

Voyons maintenant ce que le Sarkomètre aurait pu être.

Puisque je n’ai ni le temps ni l’équipe nécessaire à la réalisation de ces visualisations (mais il pourrait un jour en être autrement), je vous propose simplement quelques exemples de graphisme.

Le Sarkomètre aurait pu proposer :

  • Une visualisation qui permette d’identifier en un clin d’œil quelle est la proportion des promesses tenues.

Comme sur l’Obameter :

  • Une visualisation représentant la part relative de chaque thématique dans les promesses tenues/en cours de réalisation/abandonnées

Comme pour l’agenda du président Obama analysé par le Washington post :

Ou à la façon de Where does my money go

  • Une visualisation représentant les ratios promesse tenues/promesses formulées pour chaque thématique

Comme sur cette visualisation de l’évolution du pouvoir d’achat des foyers américains sur Flowing Data :

  • Une timeline mettant en évidence le rythme de réalisation des promesses et les priorités de l’équipe gouvernementale

Comme la timeline d’ABC News sur la dernière campagne présidentielle américaine :

  • Une visualisation graphique du champ lexical de la formulation des promesses dans les discours du candidat Sarkozy

Comme sur Capitol Words :

Ou comme dans la rubrique In Obama’s Words du Washington Post :

  • Même un simple petit curseur, comme sur Politifact aurait déjà été plus parlant.

Conclusion : structurer des donnée ne suffit pas, un travail d’éditorialisation est nécessaire pour faire ressortir des idées de la base de données.

Creative Commons License

« On l’a pas en format ordinateur »

Bookmark and Share


Nicolas Kayser-Bril, data journaliste et blogueur invité, propose un retour d’expérience sur un projet qu’il publiera au printemps prochain

Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).

L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.

Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.

Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).

La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.

Exemple imaginaire :

Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »

Donnée structurée :

Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.

La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».

Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.

Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).

Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).

Auteur : Nicolas Kayser-Bril

Creative Commons License

Illustration : www.photo-libre.fr

Ouverture des données publiques : la Grande Bretagne sur la bonne voie

Bookmark and Share

Bonne nouvelle pour les database journalistes anglais : le gouvernement britannique devrait rendre disponible gratuitement les cartes élaborées par l’Ordnance Survey, l’agence de cartographie officielle de l’exécutif.

L’info provient du Guardian du 17 novembre : à l’occasion d’une rencontre avec Sir Tim Berners-Lee, inventeur du Word Wide Web, le Premier ministre Gordon Brown a annoncé que près de 2 000 sources de données seraient ouvertes au public d’ici avril.

Toujours d’après le Guardian, le gouvernement britannique aurait été séduit par le succès du crime mapping (cartographie de la délinquance) aux Etats Unis. (Comme quoi, l’exemple du Delaware online traité dans ce précédent post était finalement plus important que je ne le pensais)

Dans le lot de 2 000 bases prochainement ouvertes, les Britanniques pourront trouver des données sur :

-le trafic routier

-le prix des biens immobiliers en fonction du lieu de résidence

-les infractions au code de la route, avec le type d’infraction et leur nombre par zone géographique

Jusqu’à aujourd’hui, ces données n’étaient accessibles qu’après l’achat d’une licence, d’un coût de 5000£ (5 600€) par utilisation.

Pour le Guardian, c’est une belle victoire, puisque le quotidien britannique fait campagne depuis trois ans pour que le gouvernement renonce aux droits d’auteurs sur les données publiques.

Voici un extrait de leur appel pour l’ouverture des données publiques datant de 2006, Free Our Data

“Our taxes fund the collection of public data – yet we pay again to access it. Make the data freely available to stimulate innovation”

Les auteurs, les journalistes Charles Artus et Michael Cross, insistent sur les conséquences néfastes d’un tel statut des données, notamment sur l’innovation et l’entreprenariat.

Et en France, on en est où ?

Le géoportail, réalisation de l’IGN et du ministère de l’Ecologie propose un certain nombre de données cartographiques, librement exportables.

Surtout, notre régime d’accès aux données publiques est défini par la loi du 17 juillet 1978, qui garantit le libre accès aux documents administratifs et la réutilisation des informations publiques.

Dans quelle mesure cette loi permet-elle d’accéder aux données, sous quelles réserve, dans quels délais…. Tout ça sera l’objet d’un prochain post.

Creative Commons License

Illustration : www.photo-libre.fr

Le database journalism : à la croisée des grandes tendances du Web

Bookmark and Share


statistique

Comme expliqué dans la page « A propos », mon exploration du database journalism est sensée nourrir un projet de lancement d’un site d’info basé sur du journalisme de données.

Si je voulais faire simple, je pourrais résumer mon projet à un site d’infographies. Evidemment, ça ne serait pas aussi attractif : l’idée de compiler sur des pages Web des dizaines d’infographies telles qu’on a l’habitude de les voir dans les pages de nos journaux ferait même plutôt fuir.

Un petit post s’impose donc pour convaincre d’éventuels réticents que le journalisme de données, ou database journalism, est bien au cœur des dernières tendances du Web, et qu’il résonne de promesses captivantes.

Le database journalism s’inscrit à la croisée de plusieurs grandes tendances :

1/Le Web-design et la 3D : de l’infographie en trois dimensions, animée, percutante, ça change tout ! Ca pourrait même réconcilier nos concitoyens avec les nombres (cf sur ce blog: un problème avec les nombres ?).

2/La personnalisation : la délinéarisation, la fragmentation voire l’individualisation, de la consommation d’information sont désormais caractéristiques des usages du Web. La mise à disposition de bases données via des interfaces graphiques peut justement offrir une personnalisation poussée de l’information. Une infographie interactive peut ainsi être plus ou moins largement paramétrée par l’utilisateur : choix du zoom, délimitation de la zone géographique, sélection des dimensions comparées, personnalisation des critères de visualisation… Chaque infographie devient ainsi unique, parfaitement adaptée aux besoins d’un internaute à un moment précis de son parcours de navigation.

3/La géolocalisation : la personnalisation appliquée à la situation géographique de l’internaute. Cela peut permettre, par exemple, à chaque Internaute d’entrer dans les infographies différemment selon l’endroit où il se trouve. Résultat : un impact bien plus grand des données présentées. La carte du taux de mortalité par accident de la route suscite moins la curiosité si elle est présentée à l’échelle de la France qu’à celle de son quartier.

4/La transparence des données publiques : l’administration Obama a donné une vraie impulsion en janvier dernier en ouvrant l’accès à un catalogue de données brutes de l’Etat américain, sur le site data.gov. Le gouvernement britannique s’y est mis aussi (http://innovate.direct.gov.uk/). Le  mouvement d’ouverture des bases de données est lancé, mais les données brutes restent difficilement lisibles sans médiation graphique. Il ne reste donc plus qu’à s’en saisir pour y greffer des interfaces de visualisation éditorialisées. C’est ici que le database journalism trouve sa place.

5/Le Web social et le crowdsourcing: Non seulement les internautes ont la possibilité de personnaliser les infographies, mais ils peuvent également contribuer à récolter les données. Pour analyser les 458 mille pages sur les notes de frais des députés britanniques, le Guardian a, par exemple, demandé à ses lecteurs-volontaires d’analyser chacun un petit bout du document. La participation des internautes permet à la fois de collecter des données micro-locales et de fédérer des communautés autour des bases de données.

6/L’Internet des objets et le temps réel : l’étiquetage électronique des objets, via des puces Rfid capables de transmettre ou d’enregistrer des données, ouvre la voie à de nouvelles façons de collecter l’information. Un capteur, encapsulé dans une montre ou n’importe quel objet usuel, peut, par exemple, donner des indications géo-localisées, en temps réel, sur la pollution de l’air. La transmission des données entre puces Rfid et espaces de stockages numériques peut se faire automatiquement, et être intégrée à des infographies réactualisées en permanence. (Voir l’article de Daniel Kaplan sur InternetActu.net)

J’essaierai, bien entendu, de développer toutes ces dimensions du database journalism dans mes prochains posts.

Et, promis, je vous donnerai par la suite des exemples commentés de journalisme de données.

Creative Commons License

Illustration : www.photo-libre.fr

Inscrivez votre adresse e-mail pour vous abonner à ce blog et être averti de mes nouveaux posts par e-mail

Rejoignez 25 autres abonnés

Sélection de liens

Contact :

goulard.caroline@gmail.com

Blog Stats

  • 34,072 hits

Visuel d'en-tête : Photos Libres