Database journalism

Migration du blog sur blog.actuvisu.fr

Published 24 Mai 2010 Uncategorized Leave a Comment

Fermeture du blog databasejournalisme.wordpress.com

Désormais vous retrouverez tous mes billets sur notre nouvelle plateformes ActuVisu à l’adresse http://blog.actuvisu.fr/

Je continuerai de vous faire-part de mes découvertes en matière de datajournalism et de visualisation de l’information sur cette nouvelle plateforme.

Vous y trouverez également les billets rédigés par les autres membres de l’équipe ActuVisu :

FX blogue en anglais sur la dataviz et l’enjeu des datas dans le monde anglo-saxon
Benoit s’intéresse à l’architecture de l’information, son marketing et l’expérience utilisateur de manière plus globale
Léo, a entrepris de visualiser le texte de À la recherche du temps perdu de Proust, et nous fait suivre les avancées de son projet. Il vous parlera aussi des outils, des process, et des aspects statistiques de la visualisation de données

Enfin, ce nouveau blog sera un espace privilégié pour vous tenir informés des actualités de notre projet de site de visualisation de l’information www.actuvisu.fr

Pour ceux qui étaient abonnés au flux RSS de ce blog, nous vous prions de remettre à jour votre abonnement avec cette nouvelle adresse : http://blog.actuvisu.fr/feed

Rendez-vous sur http://blog.actuvisu.fr/ , sur notre fil Twitter, ou sur notre page Facebook.

Visualiser les différents modes de scrutin en Grande Bretagne

Suite de notre suivi des élections britanniques, toujours en compagnie de FX, ami, collègue et blogueur sur Datanamics.

Petit résumé : le Conservative Party est arrivé en tête du scrutin du 6 mai dernier, mais ces législatives n’ont pas dégagé de majorité absolue au Parlement. Les Conservateurs ont donc dû former une coalition avec les Liberal Democrats emmenés par Nick Clegg. Le ralliement des Lib Dem s’est monnayé contre une révision du mode de scrutin. Acteur de troisième rang dans un monde politique britannique dominé par le bipartisme, les Lib-Dem sont, en effet, attachés à l’introduction d’une dose de proportionnalité dans le système électoral anglais.

Le mode de scrutin en vigueur est le scrutin majoritaire à un tour : le candidat qui remporte le plus de voix dans sa circonscription est élu. C’est le système FPTP (pour first past the post). Ce système sur-représente le parti majoritaire, au détriment des petites formations.
(Voir cet article de Lalibre.be, pour plus d’information sur le système électoral anglais)

Il existe d’autres systèmes, déjà expérimentés dans l’univers anglosaxon. La Electoral Reform Society recommande trois autres modes de scrutin, introduisant une représentation plus proportionnelle :

Venons-en concrètement à ce qui nous intéresse ici : quels seraient les effets d’un changement de scrutin sur la représentation politique ? Si l’élection du 6 mai dernier s’était jouée avec un système plus proportionnel, qu’est-ce que cela aurait changé ?

Nous vous avons préparé deux petites visualisations à partir des données publiées par le Datablog du Guardian (qui s’appuie sur la Electoral Reform Society), en nous intéressant aux 12 grandes régions britanniques.

La première est interactive (si vous l’ouvrez sur Tableau Public en cliquant dessus), et vous permet de visualiser, région par région (ou en additionnant les scores de plusieurs régions) combien de sièges au Parlement chaque parti aurait obtenu avec tel ou tel mode de scrutin.

La seconde est une infographie, montrant pour chaque région et pour chaque parti quel est le mode de scrutin le plus avantageux.

Qu’en retenir ?

Quelque soit le mode de scrutin envisagé, le parti en première place reste le même, dans toutes les régions, selon nos projections à partir des résultats de 2010. Les modes de scrutin AV, AV+ ou STV changent parfois la donne pour la deuxième et troisième place.
Pour cette élection de mai 2010, le système actuel FPTV avantageait les conservateurs dans plus de la moitié des régions. Dans les régions où le FPTV n’était pas le plus avantageux, c’est le STV qui donnait au Conservative Party le plus de sièges.
A l’inverse, l’actuel système électoral joue en la défaveur des Lib-Dem dans toutes les régions, alors que le STV leur garantissait le plus de sièges, dans toutes les régions également.
Quant aux Labour, le système leur permettant de gagner le plus de sièges varie selon les régions : parfois le mode AV, parfois le mode actuel FPTV, parfois le STV.

Pour le moment, nous ne savons pas dans quelle direction s’orientera la réforme électorale voulue par Nick Clegg. Nul doute qu’il procèdera lui aussi à ce genre de calcul et de visualisation pour arrêter sa position.

Vous trouverez une analyse plus en profondeur de la situation britannique sur le blog de FX.

Visualiser les concordances entre soutiens politiques de la presse britannique et victoires aux élections

Published 3 Mai 2010 ActuVisu , Des exemples de database journalism 5 Comments
Étiquettes : ActuVisu, élections, Conservatives, database, Datablog, Guardian, Labour, Sun, Times, UK

A trois jours des élections générales au Royaume-Uni, l’occasion de revenir sur les prises de position des principaux quotidiens nationaux.

Les journaux britanniques n’hésitent pas à afficher clairement leur soutien pour tel ou tel candidat et l’appui apporté par les rédactions représente un enjeu de campagne pour les partis politiques. Car ces prises de position ne sont pas acquises une fois pour toutes. Si le Times a soutenu le Labour en 2005, il s’affiche cette année en faveur du Conservative Party, par exemple, tout comme le Guardian.

Dès lors il devient très intéressant d’observer les concordances et dissonances entre soutiens médiatiques et soutiens dans les urnes.

C’est exactement l’objectif de l’infographie ci-dessous: quel journal a soutenu quel parti pour chaque élection depuis 1945 ? Et quel a été le parti vainqueur pour chaque élection ? Le tout mis en perspective avec le poids de chaque journal, compte tenu de sa diffusion.

Cette infographie a été réalisée à partir des données fournies par le Data Blog du Guardian ici :

Is it the Sun wot wins it for Labour? How newspaper support affects elections

The Sun and Labour support: How newspaper readers have voted in UK general elections

Ce Data Blog, au-delà de réaliser des très bonnes visualisations d’actualité, est en effet une mine de données. Les journalistes y publient les bases de données dont ils se servent pour mener leurs enquêtes, et invitent les lecteurs à réaliser des infographies à partir de cette matière première (et à les poster sur Flickr).

C’est exactement ce que nous avons voulu faire avec FX, qui blogue sur la visualisation de l’information, en anglais, sur Datanamics. Et qui est aussi un de mes co-équipiers dans l’aventure ActuVisu.

Une première mise en garde, loin de nous l’idée de suggérer une corrélation directe entre soutien médiatique et victoire aux élections. Nous sommes tous deux convaincus que les médias n’ont pas de claire emprise sur les actes et consciences des électeurs anglais et que les changements de bord des gouvernements britanniques relèvent bien plus d’une problématique liée aux évolutions sociales. Nous avons plutôt voulu questionner les évolutions de la presse quotidienne nationale en fonction de sa coloration politique.

Je vous renvoie à l’article détaillé de FX pour une analyse approfondie, mais j’aimerais juste attirer votre attention sur quelques petites choses que nous enseigne cette infographie :

Les années 70 sont déterminantes : à partir de là la coïncidence entre la couleur politique des médias et celle de la victoire électorale semble plus prégnante.

C’est également à partir des années 70 que le Sun acquiert une diffusion importante, et qu’il commence à changer de bord politique au gré des élections

Et c’est aussi dans les années 70 que s’amorce le déclin du traditionnel soutien aux Conservateurs que représente le Daily Express, et celui du traditionnel soutien au Labour que représente le Daily Mirror.

Qu’en conclure ? que le Sun est un élément déterminant depuis les années 70.

La vraie étude, celle que nous n’aurons pas le temps de faire, consisterait à analyser pourquoi une telle concordance entre les prises de position du Sun et le résultat des élections ? Quel est l’impact du Sun ? Le Sun aurait-il un sens particulièrement affiné du changement social, au point d’anticiper les changements de majorité politique, voire de les renforcer ?

Si vous avez déjà eu l’occasion de vous pencher sur cette question, je vous invite à nous faire part de vos réflexions.

Nous lançons ActuVisu !

Published 19 avril 2010 ActuVisu 3 Comments
Étiquettes : ActuVisu, datajournalism, information, visualisation

Enfin des nouvelles de mon grand projet à vous faire partager ! Nous lançons aujourd’hui notre marque d’information en ligne ActuVisu, et la page actuvisu.fr.

http://www.actuvisu.fr est un site de visualisation de l’actualité. Nous y publieront nos premières infographies interactives au début de l’été 2010.

J’en profite pour changer le nom du mon compte Twitter, qui devient @ActuVisu, et pour repeindre tout mon petit univers en ligne aux couleurs de notre logo.

Et j’ouvre une nouvelle page sur ce blog, totalement dédiée à ce projet, à son équipe, à notre démarche

Quatre voies du datajournalism

Published 7 avril 2010 Des exemples de database journalism , Le database journalism : Pourquoi? 4 Comments
Étiquettes : crowdsourcing, datajournalism, datamining, graphisme, interaction design, journalisme de données, journalisme visuel, personnalisation, sémiologie graphique, sémiotique visuelle, visualisation, Web-design

J’ai eu l’impression, ces derniers jours, de répéter plusieurs fois la même chose à des personnes différentes. (Ce qui est un vrai plaisir quand il s’agit de datajournalism). D’où l’idée d’articuler ici ces quelques éléments récurrents.

Finalement, le datajournalism ou journalisme de données, peut difficilement se résumer à un type de contenu ou à un type de démarche. J’ai identifié quatre dimensions, et pour chacune les compétences nécessaires à sa mise en œuvre :

1-Compréhension : Le datajournalism permet de mieux comprendre le monde.

Pour cette visualisation des succès au box office américain depuis 1986, l’équipe du nytimes.com a particulièrement travaillé sur la forme des courbes, et leur couleur.

Le datajournalism, c’est de la visualisation d’information. C’est une des composantes du traitement rich media (tel que le défini Alain Joannes), une des applications du journalisme visuel. Dans cette première logique, le datajournalism permet de faire comprendre par l’image certaines idées bien mieux que ne le feraient des mots.

Le datajournalism fait ici appel aux compétences des graphistes et aux connaissances en sémiotique visuelle ou en sémiologie graphique : pour que chaque forme et chaque couleur fasse sens instantanément.

Pour faire comprendre une affaire d’espionnage politique à Madrid, elpais.com a mis au point une visualisation animée et interactive.

Mais le datajournalism va au delà de l’infographie car il ne s’adresse pas uniquement à l’intelligence visuelle, il travaille également sur l’intelligence cinétique. En datajournalism la visualisation est forcément interactive. Elle doit permettre à l’internaute de jouer avec les données, de manipuler la visualisation. Plongé dans une posture active, l’usager appréhende et mémorise plus facilement l’information.

La datajournalism ne pourra donc pas se passer des compétences d’un interaction designer. Ni de celles d’un ergonome.

2.Personnalisation : Le datajournalism permet de personnaliser la vue sur le monde

Gapminder permet de visualiser à la demande les relations entre différents indicateurs statistiques mondiaux.

Le datajournalism, c’est aussi de l’information à la carte. Un des moyens de répondre à la fragmentation des audiences.

La visualisation de données consiste à bâtir une interface graphique pour accéder à une base de données. Cela permet bien sûr de proposer un aperçu de gros volumes de données, d’en faire jaillir le message essentiel. Mais cela ouvre également la possibilité d’interroger n’importe quelle partie de cette base de données, et de la rendre accessible et compréhensible instantanément. Ainsi, une des dimensions de l’interactivité consiste à rendre la visualisation librement paramétrable. Une application de datajournalism peut alors répondre toutes les attentes particulières des internautes autour d’un thème d’information.

Les savoir-faire d’un architecte de l’information deviennent ici utiles.

3.Investigation : Le data journalisme permet d’éclairer autrement le monde.

En analysant un document de 458 mille pages sur les notes de frais des députés britanniques, le Guardian a révélé des abus dans l’utilisation des fonds publics britanniques.

Le datajournalism est également un outil d’investigation. Les bilans de la cour des comptes, les rapports du FMI, les statistiques de l’OCDE, etc., contiennent énormément de matériau pour le journalisme d’investigation. Seulement, il faut savoir faire parler ces données. C’est à dire qu’il faut prendre le temps de les lire, qu’il faut savoir les interpréter, qu’il faut des outils pour appréhender des tendances à partir de gros volumes de données, qu’il faut avoir l’idée de croiser une base de données avec une autre, etc., pour faire apparaître des informations jusque là ignorées.

Interroger les données plutôt que les témoins est un art encore très délaissé par les médias français. Peut-être parce que cela suppose d’emprunter des outils et des méthodes aux sciences (voir la brillante illustration de Fabrice Epelboin sur RWW France) : pour extraire de l’information d’immenses bases de données, il n’y pas d’autres moyens que de construire des modélisations, que d’utiliser des outils de gestion de la complexité.

Impossible de réaliser ce genre d’investigation sans statisticien.

4.Participation : Le data journalism permet de participer à la description du monde

Avec l’aide de 200 internautes, l’équipe d’Owni.fr a géolocalisé les bureaux de votes français et a rendu cette base de données gratuite, ouverte et libre.

Enfin, le datajournalism suppose parfois de faire appel au crowdsourcing pour collecter les données et pour les qualifier. Lorsque la base de données n’existe pas, lorsqu’il est matériellement impossible qu’un petit groupe de personnes collecte toutes les données sur un sujet, la force du datajournalism réside dans sa capacité à fédérer la participation des internautes pour obtenir des données à faire parler.

Cela nécessite un gros travail d’animation de communauté.

Il faut encore mentionner deux compétences indispensables au datajournalism, et transversales à ces quatre dimensions.

Tout d’abord les savoir-faire des développeurs. Développeur axé back office et data, pour construire et gérer les bases de données, mais aussi développeur axé animation, flash, et front office.

Et pour finir, pas de datajournalism sans travail d’éditorialisation. Par éditorialisation j’entends : problématisation, inscription dans le débat public, storytelling, hiérarchisation, définition d’un angle de traitement de l’actualité et d’un message à délivrer. Vous remarquerez que j’esquive volontairement la référence au journalisme. Je suis persuadée qu’il n’est pas besoin de se définir comme journaliste pour être capable de remplir ce rôle d’éditorialisation. Maintenant, est-ce que ce travail d’éditorialisation est du journalisme ? Je vous laisse en débattre.

Prix de la presse au Kg : la presse française bien plus chère que la presse étrangère

Published 9 mars 2010 Des exemples de database journalism 5 Comments
Étiquettes : crise de la presse quotidienne, Elsa Secco, PhDx, prix au kg, Slate, visualisation

Au menu : une très bonne visualisation d’Elsa Secco, des explications sur sa réalisation et quelques mots d’éditorialisation.

La visualisation d’abord, réalisée par Elsa Secco, à partir des données fournies par Philippe Douroux dans son très bon article « Aux Etats-Unis, la presse pèse 3 fois plus lourd et coûte moins de 2€/Kg« .

Elsa Secco est webdesigner et étudiante en quatrième année à l’Hetic.

Quelques précisions sur sa réalisation ensuite :

ELSA : « C’est la première visualisation que je réalise, et je voulais vraiment m’éclater, qu’elle soit, avant tout, fun et accessible.

J’ai tout de suite eu l’idée de représenter les données par des plumes, double-métaphore pour illustrer le poids et l’écriture.

Le plus laborieux a été de croiser l’image et les mathématiques. Il fallait absolument que les proportions soient respectées, pour que le lecteur comprenne instantanément ce qui est comparé et analysé. J’ai donc passé un moment à trouver la bonne échelle et faire des règles de 3 !

Ensuite, j’ai étudié plusieurs possibilités de schémas, je ne dis pas que le mien est le meilleur, mais je voulais aussi le mettre dans le contexte de l’illustration, comme si des plumes tombaient du nid de l’oiseau.

D’ailleurs je suis assez fière de mon oiseau, car il a une tête assez grotesque. 🙂 »

Et pour finir, je ne peux pas m’empêcher de vous livrer les quelques commentaires que ces données m’inspirent.

L a presse française, coûte, en moyenne 11,30€ le Kg alors qu’aux Etats-Unis elle coûte moins de 2€ le Kg, selon les calculs de PhDx dans son récent article sur slate.fr.

D’accord, vous allez me dire : quel sens ça a de comparer le prix au Kg de la presse ? J’y vois deux vertus pédagogiques :

Premièrement, comparer les prix au Kg, c’est mettre en lumière deux phénomènes très importants dans la perte d’attractivité de la presse papier française :

La presse française offre moins de contenu que certains titres étrangers (par exemple, les très copieux Washington Post et New York Times)
La presse française est plus chère que la presse étrangère.

Pour lutter contre des difficultés endémiques ou une crise économique conjoncturelle, certains titres ont amoindri leur rédaction et/ou leur pagination, tout en augmentant le prix d’achat. Comment s’étonner que les lecteurs désertent ? A l’origine des difficultés de la presse quotidienne française, il n’ y a pas seulement une transformation de la demande, un bouleversement des pratiques de lecture, il a aussi la faible attractivité de l’offre, et la visualisation d’Elsa montre bien cela.

Deuxièmement : cette référence au prix au Kg nous fait prendre conscience de la matérialité de la presse papier. Un journal c’est de l’encre, du papier, des camions pour le transporter… Et tout cela à un coût (plus de 60% des charges d’exploitation d’un titre). Des coûts qui ne se retrouvent pas dans la presse en ligne.

Certains considèrent comme un paradoxe que bien des lecteurs, qui acceptaient de payer hier pour leur journal, ne conçoivent plus aujourd’hui de payer pour de l’information en ligne. Calculer le prix de la presse au Kg suggère une explication : les lecteurs ne payaient déjà pas pour l’information au temps des journaux imprimés, ils payaient pour le papier, l’encre, l’essence dans les camions et le salaire des porteurs.

Data journalism : pourquoi les médias français ne s’y mettent pas ?

Published 7 mars 2010 Le database journalism : Pourquoi? , Ouverture des données 14 Comments
Étiquettes : database journalism, Datablog, droit des bases de données, Guardian, New York Times, opendata, rédactions

Pourquoi les médias français se sont-ils si peu saisis du data journalism, à la différence des médias anglosaxons ? Quelques éléments de réponses ont déjà été apportés : par Valérie Peugeot sur www.lavoixdudodo.info et par Elodie Castelli sur www.journalismes.info. Après les études de cas, je vous livre ici ma synthèse. L’occasion de vous faire partager les enseignements tirés de cinq entretiens, réalisés en janvier dernier avec Hubert Guillaud, Jean Marc Manach et Charles Népote de la Fing, avec Fabrice Epelboin de RWW France et avec Nicolas Voisin de Owni.fr.

Comment expliquer le peu d’empressement des rédactions françaises à s’emparer du journalisme de données ? Plusieurs facteurs se combinent, certains relèvent des rédactions, d’autres de leur environnement

Côté rédactions :

Des rédactions en manque de moyens financiers…

Tout d’abord, côté rédactions traditionnelles, la plupart consacrent très peu de ressources à la R&D, et donc à du journalisme d’expérimentation, comme de la visualisation de données. La presse quotidienne n’en a tout simplement pas les moyens, les pure players difficilement. La presse magazine ou le secteur audiovisuel pourraient peut-être parier sur le journalisme de données, mais la crise économique ne les incite pas à de tels investissements.

Quelques exceptions néanmoins : l’Express.fr a recruté deux documentalistes pour réfléchir sur la structuration de données (plus d’info sur le blog d’Eric Mettout) ; France 24 mène un gros travail autour du Web sémantique au sein de son Lab (plus d’info sur le blog de Mikiane)

… en manque de moyens humains

Les rédactions ne sont pas seulement appauvries sur le plan financier, elles manquent aussi de ressources humaines. Car le data journalism nécessite du temps et des compétences : en datamining, en statistiques, en développement, en web-design, en interaction design, en sémiologie visuelle…

Actuellement, personne en France n’a réussi à réunir le bon mix de compétences. Pourtant, c’est sans doute ce qui fait le succès des visualisations du nytimes.com depuis deux ans : le titre fait travailler ensemble des ingénieurs, des infographistes et des journalistes, tous payés le même salaire et sur un même pied d’égalité. Rien à voir avec l’état d’esprit des rédactions françaises, dans lesquelles les « informaticiens » sont déconsidérés.

Ce cloisonnement des rédactions est sans doute un peu moins prégnant lorsqu’on s’intéresse aux rédactions web, mais il n’en reste pas moins un frein au développement du data journalism en France.

… en manque de culture web

Tout simplement, les rédactions traditionnelles n’ont souvent pas l’intuition du data journalism. La plupart du temps, elles ont un train de retard par rapport aux développements du web. Les écoles de journalisme commencent juste à intégrer le journalisme d’innovation et le web dans leurs enseignements. Pour beaucoup des acteurs de ce secteur, cela reste encore un truc de « geek ».

… en manque d’approche statistique

Ce manque d’intuition n’est pas sans rapport avec une culture journalistique très française. Une certaine hagiographie du journalisme made in France prend racine dans l’opposition « facts vs fiction » : opposition entre le journalisme de faits à l’anglo-saxonne et le journalisme littéraire et d’opinion du pays d’Albert Londres. La mythologie journalistique française sacralise la belle plume et le subjectivisme. Sur ce terreau pousse la défiance de nombreux journalistes envers tout ce qui pourrait paraître trop rationaliste, trop technophile ou trop américain.

A ceci s’ajoute la faible culture mathématique, statistique et scientifique de bien des rédacteurs de presse généraliste.

Aversion à mettre les mains dans les données brutes, malaisance avec les valeurs chiffrées, crainte de voir les techniciens commander les rédactions : autant de sensations diffuses qui ne facilitent pas la reconnaissance du data journalism en France.

Pour trouver quelques affinités entre la visualisation de données et l’histoire française, il faut sortir du champ journalistique et se pencher sur celui de la sémiologie. En particulier, la sémiologie graphique, inventée en France par Jacques Bertin, aborde les problématiques de visualisation d’informations géographiques.

Des journalistes américains au service des communautés locales ?

Enfin, une dernière hypothèse pourrait expliquer l’affinité des médias anglosaxons avec le data-journalism. Les journalistes américains se considèrent peut-être plus comme étant au service d’une communauté.

Aux Etats-Unis, les journalisme de données s’est beaucoup développé à l’échelon local avec du crimemapping et des services pratiques (les horaires d’ouvertures des magasins, par exemple). La référence en la matière reste EveryBlock d’Adrian Holovaty : un « agrégateur-visualiseur » de données micro-locales (critiques de restaurants, prix de l’immobilier, etc.).

Les données jouent un rôle important dans la valorisation des territoires. Le journalisme de données, au niveau hyperlocal, peut ainsi être utilisé par les rédactions pour générer de la proximité avec les communauté d’habitants pour lesquelles elles travaillent.

Côté environnement :

Une autre dimension doit être prise en compte : le journalisme de données ne dépend pas uniquement des journalistes, mais également des données à leur disposition.

Une culture de la transparence différente entre la France et les pays anglo-saxons

Et, là aussi, la France est à la traine par rapport aux anglosaxons. Les Etats-Unis et la Grande Bretagne se sont illustrés par leurs mouvements d’ouverture des données : avec les sites gouvernementaux data.gov et data.gov.uk, mais aussi avec de puissants militants de la cause de l’opendata, la Sunlight Foundation aux Etats-Unis, et le datablog du Guardian en Grande Bretagne.

Ici encore, on pourrait invoquer un fossé culturel : la culture anglo-saxonne de la transparence dans la gestion publique n’a pas d’équivalent en France. La campagne « Give us back our crown jewels », portée par le Guardian en 2006, ne pourrait pas avoir d’écho sur nos terres républicaines. Pourtant elle a joué un rôle important dans la libération des données publiques en Grande Bretagne. Le Guardian a ainsi activement milité pour que les données collectées grâce à l’argent du contribuable britannique soient accessibles gratuitement, afin de stimuler l’innovation. Il a joué un rôle d’exemplarité en ouvrant ses propres bases de données (DataStore) et en organisant un concours d’applications basées sur ces données libérées. (Voir à ce sujet l’article de Jean Marc Manach « Les joyaux de la couronne n’appartiennent à personne »)

Pas de consensus sur la valeur économique de l’ouverture des données en France

Dans son plaidoyer pour l’ouverture des données, le Guardian insistait sur l’enjeu économique de l’ouverture des données publiques : une meilleure valorisation des données stratégiques, plus de services, plus d’opportunités commerciales, plus d’innovation, moins d’asymétrie informationnelle et donc des marchés plus efficients, et au final, un plus grand dynamisme économique.

En France, il n’y a pas de consensus sur la valeur économique des données publiques. Les entreprises dont l’activité repose sur la privatisation de données n’ont pas intérêt à leur ouverture. L’avantage économique de la libération des données ne s’est pas imposé face aux gains espérés de leur monétisation via la vente de licences. C’est ainsi, par exemple, que l’IGN continue à faire payer l’accès à une importante partie de ses bases de données. (voir ce précédent post pour plus d’info)

Les conditions juridiques de la réutilisation des bases de données

Sans aller jusqu’à dire que l’appareil juridique français est un frein à l’ouverture des données, il faut garder en tête certaines particularités de notre droit des bases de données.

Premier point : le droit d’auteur. Les données brutes ne sont pas, en elles-mêmes, soumises au droit d’auteur mais une base de données peut être protégée par le droit d’auteur si elle découle d’un acte de création intellectuelle, c’est-à-dire si elle témoigne d’une originalité caractérisée. L’auteur de la base de données jouit alors d’un monopole d’exploitation de son œuvre (droits patrimoniaux) ainsi que de droits au respect de l’intégrité de son œuvre et au respect de sa paternité sur l’œuvre (droits moraux).

Deuxième point : le droit des producteurs de bases de données. Lorsque la création d’une base de données nécessite un investissement financier, humain et matériel substantiel, le droit des producteurs reconnaît au créateur un droit de protection analogue à celui de l’auteur sur son œuvre. Cette disposition est destinée à protéger l’investissement des personnes qui prennent l’initiative et le risque économique de créer une base de données. Cette protection garantit au producteur de la base de données un monopole d’exploitation, il peut interdire toute extraction substantielle de données de sa base.

Pour plus de détails voir la très bonne synthèse de Didier Frochot sur les-infostratèges.com et l’étude de la jurisprudence par Bernard Lamon.

Troisième point : la CNIL et les dispositions relatives à la protection de la vie privée. Toute base de données impliquant des données nominatives et/ou personnelles doit faire l’objet d’une déclaration à la CNIL. La collecte et la conservation des données d’une telle base sont également soumises à conditions (voire le site de la CNIL pour plus d’info). De même, doit être soumis à la CNIL tout croisement de bases de données qui aboutirait à qualifier des données personnelles.

L’enjeu de la structuration des données

Enfin, l’ouverture des données repose avant tout sur un enjeu d’accessibilité. Certes, on trouve aujourd’hui de nombreuses données chiffrées sur des organismes publics ou privés. Mais bien souvent ces données sont perdues au milieu de fichiers pdf, éparpillées entre des masses de texte, scannées en format image… et lorsqu’il s’agit de croiser de bases de données, on se retrouve face à des formats disparates et peu malléables… bref, les données sont rarement structurées.

D’accord, la loi du 17 juillet 1978 reconnaît à tout citoyen français le droit d’obtenir communication des documents détenus par une administration.

D’accord, une autorité administrative dédiée, la CADA (commission d’accès aux documents administratifs), veille au bon respect de ce droit d’accès aux documents administratifs.

Mais rien n’oblige les administrations à communiquer leurs données sous format numérique, encore moins de façon structurée.

Sur ce sujet, l’expérience de Nicolas Kayser-Bril est édifiante (voir l’article « On l’a pas en format ordinateur »).

Illustration : http://www.sxc.hu/

7 études de cas en data journalism et visualisation de données

Published 21 février 2010 Des exemples de database journalism 16 Comments
Étiquettes : data visualization, database journalism, El Pais, Gapminder, Guardian, LePost, Mediapart, New York Times, Rue 89, Socrata

Beaucoup de veille en ce moment, et peu d’écrit. Voici quand même quelques études de cas à vous faire partager.

Depuis un an que je piste les exemples de data journalism, je constate que les initiatives françaises sont bien rachitiques et que j’atterris le plus souvent sur des sites anglo-saxons. Avec le nytimes.com, le washingtonpost.com et le guardian.co.uk en pionniers du genre. Les études de cas ci-dessous illustrent assez bien l’état du journalisme de données français par rapport à ce qui se fait aux Etats-Unis, en Grande-Bretagne ou même en Espagne.

Plusieurs facteurs se combinent pour expliquer ce décalage français : un rapport différent aux données, une histoire journalistique divergente, une culture de la transparence publique antagonique, un appareil législatif singulier et surtout des rédactions appauvries tant en moyens financiers qu’en compétences humaines. Je détaillerai ces explications dans un prochain post, en attendant, je vous renvoie à l’article d’Elodie Castelli sur journ@lismes.info « Le Data-journalisme peine à se développer en France » et aux quelques compilations ci-dessous.

Le New York Times : leader américain en matière de data journalism. Ses infographies sont les plus innovantes et les plus esthétiques. Son partenariat avec IBM (logiciel ManyEyes) lui permet de proposer un « visualization lab » interactif et participatif.

Afficher ce document sur Scribd

Le Guardian : le titre a joué un rôle important dans le mouvement d’ouverture des données publiques au Royaume-Unis avec son manifeste Give us back our crown jewels. Avec son Datablog et son Datastore, il milite activement pour la libération des données, l’appropriation et le partage par le plus grand nombre de ses bases de données. Il réalise régulièrement des visualisations de données très réussies et joue un rôle d’exemplarité en lançant, par exemple, un concours de visualisations l’an dernier.

Afficher ce document sur Scribd

El Pais : son site dédie une rubrique au journalisme visuel. Au début des années 2000, elle accueillait surtout des infographies traditionnelles, illustratives et non-interactives. Désormais, cette section accueille de très belles visualisations, qui racontent des histoires.

Afficher ce document sur Scribd

En France, les initiatives en matière de journalisme de données proviennent surtout des pure-players : Mediapart et Rue 89 ont lancé des cartes participatives ; LePost.fr mène l’expérimentation un peu plus loin avec un traitement « data journalist » du cumul des mandats (cela fera sans doute l’objet d’un prochain post sur ce blog).

Afficher ce document sur Scribd

Un petit mot sur Gapminder. Ce n’est pas vraiment du data journalism, puisqu’il n’y a pas d’éditorialisation ni de volonté de couvrir l’actualité, même si le site met en avant certaines comparaisons de données. Gapminder reste pour autant un site très puissant de visualisation de données mondiales, ludique et didactique.

Afficher ce document sur Scribd

ManyEyes et Socrata : ces plateformes sociales de manipulation de données fournissent à tous un outil, un espace de stockage et un réseau pour y mettre en valeur bases de données et visualisations. Pas d’éditorialisation, uniquement du crowdsourcing, et une démarche d’ouverture et de partage. Le Sarkomètre du Nouvel Obs a été réalisé et hébergé sur Socrata. Ces plateformes ne sont donc pas si éloignées du journalisme de données qu’elles pourraient le laisser penser à première vue.

Afficher ce document sur Scribd

Ce qu’aurait pu être le Sarkomètre du Nouvel Obs

Published 7 février 2010 Le database journalism : comment 7 Comments
Étiquettes : données structurées, Nouvel Obs, opendata, Sarkomètre, visualisation

Avec son Sarkomètre, le Nouvel Obs a mis un pied dans les données structurées. Une avancée incontestable, mais si timide qu’elle souligne finalement l’ampleur du fossé qui sépare encore la presse traditionnelle de la visualisation de données.

Reprenons. Le 1^er février dernier, lenouvelobs.com publiait un tableau récapitulant, pour 113 promesses formulées par Nicolas Sarkozy pendant la dernière campagne présidentielle, si l’engagement a été tenu, oublié ou engagé.

La base de données constituée par les journalistes comprend également, pour chaque promesse, sa thématique, la déclaration originelle du candidat Sarkozy, et un commentaire de la rédaction du Nouvel Observateur.

Il s’agit effectivement d’une démarche de structuration de données : publier dans un tableau ce qui d’ordinaire est publié par le Nouvel Obs sous forme d’article, de récit, en croisant des indicateurs (thème, promesse, déclaration, réalisation, commentaire) et des variables (les 113 promesses).

Le Nouvel Obs reprend ici la démarche de Politifact, avec son Obameter (The Obameter : Tracking Obama’s Campaign Promises), qui a noté plus de 500 promesses faites par Barack Obama pendant sa dernière campagne selon leur degré de réalisation (Promise Kept, Compromise, Promise Broken, Stalled, In the Works, Not yet rated).

Politifact est un projet de journalisme innovant lancé par Matt Waite au sein du St. Petersburg Time en 2008, pendant la campagne pour les élections présidentielles aux Etats-Unis : le site évaluait la véracité des propos tenus par les hommes politiques sur une échelle allant de « True » à « False » en passant par « Mostly True », « Half True » et « Barely True ».

Revenons d’abord sur le principal bon point du Sarkomètre : il a été publié via Socrata, une plateforme d’hébergement et de publication de bases de données. Avantages de la solution Socrata :

Interactive : l’interface de Socrata permet aux internautes de trier, de masquer ou de compiler les données par ligne ou par colonne.
Conversationnelle: les internautes peuvent noter et commenter la base de données
Virale : les internautes peuvent partager le Sarkomètre via Delicious, Digg, Facebook et Twitter
Ouverte : la base de données peut être librement publiée sur d’autres sites/blogs via un Social Data Player embeddable, il est possible de télécharger la base de donnée sous différent formats ou d’y accéder via l’API Socrata.

En passant par Socrata, le Nouvel Obs respecte tous les codes de l’open data. La base de donnée est libre, et cela représente une petite révolution dans un univers journalistique plutôt enclin à s’accrocher aux droits d’auteurs.

Maintenant cette belle avancée signalée, venons-en aux insuffisances.

Le tableau réalisé par le Nouvel Obs nous permet d’échapper à un article long, répétitif, encombré de formules destinées garder l’attention du lecteur tout en déroulant les 113 promesses. C’est déjà un beau progrès, mais le Nouvel Obs aurait pu aller beaucoup plus loin.

Le Sarkomètre ne nous permet pas de nous rendre compte instantanément que sur 103 promesses :

-31 ont été tenues

-39 ont été engagées

-43 ont été oubliées

Il ne nous permet pas de voir du premier coup d’œil que les thématiques ayant fait l’objet du plus grand nombre de promesses sont :

-La fiscalité (10 promesses)

-La famille (8 promesses)

-La santé (8 promesses)

-L’éducation (7 promesses)

Et que ces thématiques affichent des taux différents de conversion des promesses en engagements tenus :

-Fiscalité : promesses tenues à 40% (4 promesses tenues sur 10)

-Famille : promesses tenues à 0% (0 promesse tenue sur 8 )

-Santé : promesses tenues à 25% (2 promesses tenues sur 8 )

-Education : promesses tenues à 29% (2 promesses tenues sur 7)

Pour cela, il aurait fallu que le Nouvel Obs réfléchisse à la visualisation de sa base de données.

Voyons maintenant ce que le Sarkomètre aurait pu être.

Puisque je n’ai ni le temps ni l’équipe nécessaire à la réalisation de ces visualisations (mais il pourrait un jour en être autrement), je vous propose simplement quelques exemples de graphisme.

Le Sarkomètre aurait pu proposer :

Une visualisation qui permette d’identifier en un clin d’œil quelle est la proportion des promesses tenues.

Comme sur l’Obameter :

Une visualisation représentant la part relative de chaque thématique dans les promesses tenues/en cours de réalisation/abandonnées

Comme pour l’agenda du président Obama analysé par le Washington post :

Ou à la façon de Where does my money go

Une visualisation représentant les ratios promesse tenues/promesses formulées pour chaque thématique

Comme sur cette visualisation de l’évolution du pouvoir d’achat des foyers américains sur Flowing Data :

Une timeline mettant en évidence le rythme de réalisation des promesses et les priorités de l’équipe gouvernementale

Comme la timeline d’ABC News sur la dernière campagne présidentielle américaine :

Une visualisation graphique du champ lexical de la formulation des promesses dans les discours du candidat Sarkozy

Comme sur Capitol Words :

Ou comme dans la rubrique In Obama’s Words du Washington Post :

Même un simple petit curseur, comme sur Politifact aurait déjà été plus parlant.

Conclusion : structurer des donnée ne suffit pas, un travail d’éditorialisation est nécessaire pour faire ressortir des idées de la base de données.

Data Data Data

Published 24 janvier 2010 Le database journalism : Pourquoi? 2 Comments
Étiquettes : database journalism, interaction design, linked data, web sémantique

Ce billet a été rédigé par Benoit Vidal, étudiant en 4ème année à l’École des Hautes Études des Technologies de l’Information et de la Communication.

Cela fait déjà quelques temps que l’on peut considérer que nous sommes en pleine infobésité. Avec les blogs, les réseaux sociaux, le temps réel, les addicts de l’information ont de quoi assouvir leur dépendance. C’est dans cet espace que l’on voit apparaître un désir de traitement de l’information différent, plus proche des besoins du récepteur. Du journalisme de liens à l’hyperlocal (ou micro local), l’enjeu est bien celui des données. Ce que l’on appelle data(base) journalism, le journalisme de données, s’inscrit clairement dans trois trajectoires de l’ère de l’Information dans laquelle nous venons à peine de rentrer.

Le premier point, sur lequel je ne m’épancherai pas car Caroline Goulard dresse un état des lieux lucide dans un mémoire, est la crise/disparition de la presse papier, l’avènement du web et les changements profonds qu’ils provoquent dans l’économie de la presse.

Raw Data Now

La seconde trajectoire est plus scientifique et concerne le web sémantique, un web des données. Avec un approfondissement et une complexification du web, c’est un saut quantitatif et qualitatif sans précédent, aux conséquences socio-économiques encore largement insoupçonnées. Afin de donner de l’élan à ce web de données, Tim Berners Lee (créateur du web) a lancé le paradigme Linked Data ou données liées. Son slogan Raw Data Now suppose de libérer les données telles qu’elles. C’est la première étape inévitable pour un web avec plus de sens, un web « sémantisé ». Lancé par le gouvernement Obama et leur data.gov, ou des organismes tels que la Sunlight Foundation, on assiste aujourd’hui à de véritables lâchés de données.

La visualisation de données est un des grands défis de ce siècle.

Que faire de ces données brutes ? La réussite des visualisations graphiques interactives du New-York Times relève de leur capacité à faire travailler ensemble journalistes, interaction designers et développeurs afin de donner du sens à l’intéractivité, un sens visuel… à des données qui n’en ont pas, de leur donner une lisibilité, une accessibilité. C’est là toute la difficulté et c’est de la synergie des différents métiers que naîtra la cohérence. Ce traitement de l’information est vraiment pertinent lorsque l’on pense que nous n’en sommes qu’au début du tout numérique. Le lecteur des journaux gratuits chaque matin trouvera certainement un intérêt dans des e-books (Kindle, Tablet Mac) s’ils apportent une réelle plus-value à un canard papier, s’il peut prendre part à ce qu’il regarde, s’il peut jouer avec l’information. L’expérience sera pour lui plus enrichissante, en opposition avec le journalisme narratif. Je vous invite à regarder cette vidéo avec Manuel Lima, Interaction Designer et fondateur de VisualComplexity.com, au sujet de la visualisation de données.

Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.

George Wells n’avait pas tort. Cependant, nous ne sommes pas encore dans un contexte de data-obésité comme on peut connaître aujourd’hui une infobésité réelle. Tout comme l’information signifie pouvoir, il y a beaucoup de réticences à libérer des données, notamment en France. Data War ?

En conclusion, je vous laisse lire Eric Scherer, directeur stratégie et relations extérieures de l’AFP :

L’an dernier, la page la plus visitée du site du New York Times fut une infographie interactive. Le problème, c’est que les groupes de presse français disent ne pas savoir où trouver les talents pour faire un travail de cette qualité.

Pour aller plus loin : L’information, source de pouvoir

Illustration : www.memoclic.com

66 visualisations et exemples de database journalism

Published 14 janvier 2010 Des exemples de database journalism 1 Comment
Étiquettes : database journalism, document de travail, visualisation

Lorsque j’ai lancé ce blog, je pensais avant tout en faire un atelier de travail pour un (éventuel) projet de lancement de site de database journalism. Il me semble naturel d’y publier quelques travaux préparatoires. Voici un premier document, compilation des différentes visualisations repérées depuis trois mois.

Il y a aura une suite et des améliorations. Il y aura aussi, je l’espère, vos commentaires, remarques et suggestions 🙂

Afficher ce document sur Scribd

Quel modèle de circulation des contenus pour l’information en ligne ?

Published 3 janvier 2010 Sur l'information le ligne 1 Comment
Étiquettes : contenus, site d'information, Web 2.0

A l’ordre du jour aujourd’hui : le modèle de circulation des contenus. Je vais faire un petit écart par rapport à la thématique directrice de ce blog. Les réflexions qui suivent ne concernent pas spécifiquement le database journalism, mais plus largement tout projet d’information en ligne.

J’ai remarqué que pour s’imaginer ce qu’est le Web, les métaphores spatiales sont souvent privilégiées. Ne parle-t-on pas de « visiteurs », de « navigation » ou d’ « adresse » ? (une analyse plus précise par Denis Jamet ici)

Si on aborde le Web comme un espace, il existe alors plusieurs façons de concevoir un site d’information. Je vais développer deux grandes lignes.

1-Le site Web comme espace clos

Une première possibilité consiste à envisager un site d’information comme un espace clos à l’intérieur du Web. Les visiteurs entrent ou sortent du site, mais les contenus hébergés sur le site, eux, ne sont pas destinés à voyager.

C’est le modèle adopté à l’origine par les sites de la presse traditionnelle (même si les choses bougent un peu depuis). Certains ont même érigé des péages à l’entrée de leur domaine (lesechos.fr, le monde.fr et liberation.fr, en partie, leparisien.fr autrefois). Pour ces sites en mode « propriété », tout l’enjeu est d’attirer les visiteurs entre leurs murs, et de les y faire rester. On comprend alors qu’ils soient plutôt réticents à insérer des liens vers d’autres sites Web dans leurs propres contenus, surtout lorsqu’il s’agit de concurrents.

Plusieurs analyses peuvent démontrer que cette conception « propriétaire » du site d’information n’est pas la plus efficiente.

Tout d’abord l’idée que le nombre de liens sortants, et, plus largement, le degré d’ouverture du site améliorent l’audience d’un site d’information.

Voir à ce sujet l’étude de Patrick Le Floch, Christophe Cariou et Fabrice Le Guel La presse en ligne : audiences, contenus et hyperliens :

« Les résultats suggèrent assez clairement que la visibilité de la presse sur le web est bien moins importante pour son audience que le fait de permettre à ses lecteurs d’aller poursuivre leur lecture ailleurs. Alors que la presse en ligne tend encore à négliger l’importance des liens sortants, l’analyse présente suggère qu’ils ont déjà un impact relativement important. »

Mais également le fait que les 2/3 des visiteurs des sites d’information n’arrivent pas sur les contenus via la page d’accueil du site, mais viennent d’ailleurs. Et que cet « ailleurs » pourvoyeur d’audience gagnerait à être mieux pris en compte par les sites d’info.

Voir sur ce thème La presse en ligne d’ailleurs vers ailleurs !, des mêmes Patrick Le Floch, Christophe Cariou et Fabrice Le Guel.

2-Les contenus décentralisés

A l’opposé de cette vision centralisée du site d’information, on peut imaginer un modèle où le site comme espace clos perdrait sa pertinence au profit des contenus. Les briques d’information –articles, infographies, vidéos, photos…- acquerraient alors un statut d’atomes autonomes, libres de vagabonder sur la Toile, de s’assembler dans un site ou de se démultiplier. L’activité des journalistes n’est alors plus d’alimenter un site mais de produire des contenus affichant le même ADN, celui d’une marque d’information.

Qu’importe alors le nombre de visiteurs du site, ce qui compte c’est la visibilité des contenus d’une marque. Cela suppose d’en organiser la diffusion et de penser leur exportabilité dès leur création. Diffusion sur les réseaux sociaux, bien sûr, mais plus largement auprès de toute communauté pour laquelle ce contenu aura de la valeur. Cela peut prendre la forme de flux RSS, d’outils de partage, de code ouvert, mais aussi de syndication, de partenariats, etc.

Les acteurs du Web 2.0 s’identifient totalement à ce deuxième modèle décentralisé et ouvert. Ils ont compris qu’il n’y a pas d’intérêt à garder les usagers à l’intérieur de leurs sites, et que leur rôle est moins d’ériger des frontières que d’organiser la circulation et le partage de l’information, de faciliter sa prise en main, son analyse et son commentaire.

Narvic, dans son post Comment les pros de l’info tentent un hold-up sur Internet, décrit un « écosystème » de l’information dans lequel les contenus journalistiques n’existent que par leur diffusion et leur réappropriation par les blogueurs, les agrégateurs, voire même les moteur de recherche.

« La question est d’assurer la liberté, la qualité et la fiabilité de l’information sur internet, puisque c’est désormais là, de plus en plus, que les gens cherchent à s’informer. La question doit donc être envisagée au niveau global de cet « écosystème » de l’information et de tous les acteurs qui y participent en ligne : c’est à dire, certes, des entreprises de presse et des journalistes, mais aussi les internautes dans leur ensemble, qui « votent avec leurs claviers » et participent ainsi directement à la détermination de l’agenda de l’information et à sa difusion, et aussi la petite minorité d’entre eux qui participent et s’expriment : écrivent des commentaires et des billets de blog, postent des photos et des vidéos, diffusent des liens vers les contenus qu’ils recommandent. Cela concerne aussi, bien entendu, les acteurs du net qui mettent à la disposition des internautes les moyens et les outils qui permettent à cet écosystème de fonctionner : moteurs, agrégateurs, plateformes de partage et réseaux sociaux. »

Les entreprises de presse traditionnelle commencent à comprendre l’intérêt d’organiser la diffusion et le partage de leurs contenus, mais conservent une vision de leur site Web comme espace clos d’hébergement, dont il faut maximiser l’audience.

Les propos de Guillaume Bournizien, membre du département marketing et nouveaux médias du Figaro, dans l’article d’Easybourse.com « Twitter un vecteur d’audience intéressant pour les médias ? » sont une bonne illustration:

«l’objectif est d’amener un maximum de trafic sur le site par le biais d’une stratégie de déportalisation. L’idée étant que demain l’internaute accédera au contenu non pas en allant sur le site, mais en allant sur d’autres services».

Quelques pistes pour l’avenir

Reste désormais à inventer un nouveau mode d’organisation des contenus informationnels qui allierait la souplesse de contenus autonomes et la puissance d’une marque d’information crédible et reconnue.

Pourrait-on encore appeler ça un site d’information ?

Bien des questions se posent.

Qu’advient-il de la page d’accueil ? A-t-elle perdu toute raison d’être ? Faut-il la conserver comme vitrine de la marque uniquement ? Peut-elle encore servir comme espace de diffusion de contenus et de réorientation des visiteurs ?

Comment construire un modèle économique sur de tels postulats ? Pas question de reconstruire des zones payantes, bien évidemment. Pour valoriser économiquement un tel modèle d’information, il faudrait d’abord remettre en cause les pratiques actuelles. Cesser de mesurer la performance d’un site à son nombre de visiteurs uniques. Favoriser l’audience de la marque sur celle du site. Revoir tous les indicateurs actuellement plébiscités, du temps passé sur le site au taux de rebond. (Sur la non pertinence du taux de rebond, voir l’analyse très claire d’Arnaud de la communauté WordPress) Ces indicateurs collent bien au modèle du site d’information centralisé, mais il ne prennent pas en compte les contenus. Ils encouragent les rédactions Web à emprisonner les visiteurs entre les murs de leurs sites et prennent mal en compte les pratiques de lecture par flux RSS ou via les réseaux sociaux.

Même les formats publicitaires doivent être repensés. Qu’adviendra-t-il des bandeaux si l’audience est liée au contenu et non à la page ?

Beaucoup de pistes, peu de réponses. Mais j’attends avec impatience vos réactions : cela vous semble-t-il complètement utopique ?

Pour approfondir

Quelque articles de Narvic pour identifier les influences de mes réflexions :

Illustrations : Stock.XCHNG

« On l’a pas en format ordinateur »

Published 15 décembre 2009 Ouverture des données 5 Comments
Étiquettes : administration, base de données, database journalism, données structurées, opendata

Nicolas Kayser-Bril, data journaliste et blogueur invité, propose un retour d’expérience sur un projet qu’il publiera au printemps prochain

Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).

L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.

Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.

Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).

La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.

Exemple imaginaire :

Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »

Donnée structurée :

Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.

La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».

Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.

Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).

Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).

Auteur : Nicolas Kayser-Bril

Illustration : www.photo-libre.fr

Le décryptage économique : un créneau porteur pour le database journalism

Published 3 décembre 2009 Le database journalism : Pourquoi? 2 Comments
Étiquettes : économie, CODICE, database journalism, frogboiling, information économique, journalisme de données, slate.fr

Un récent article de Slate.fr (La télévision française est nulle en économie, 23/11/09, par Oriane Claire), a confirmé mes intuitions : le décryptage de l’information économique pourrait être un créneau porteur pour le database journalism.

Selon un sondage BVA pour le Codice (Conseil pour la diffusion de la culture économique), « 2 Français sur 3 ont soif d’économie ». 71% des sondés estiment que les Français en général sont plutôt mauvais, voire très mauvais, en économie, et 79% aimeraient trouver des émissions télé de décryptage aux heures de grande écoute.

Slate.fr apporte quelques précisions :

« 65% des sondés se disent «mal» informés des changements qui se produisent dans la vie économique en France et pourtant 74% d’entre eux pensent que l’économie est plus importante que la politique.. »

Premières conclusions : il existe une vraie demande pour de l’information économique, et surtout pour de la vulgarisation économique. Les Français sont confrontés à un problème d’accessibilité : l’information existe (Les Echos, La Tribune, sites Web spécialisés), mais ils peinent à la comprendre et à se l’approprier.

Voilà pour la demande, voyons maintenant la perception de l’offre d’information économique.

L’article de slate.fr nous fournit quelques chiffres, toujours en s’appuyant sur le sondage du Codice…

La télévision est donc le média le plus consulté pour l’information économique, et pourtant son offre en la matière est loin d’être satisfaisante, comme l’explique Oriane Claire :

« Les programmes ne parlent pas d’économie, ils expliquent comment faire des économies ou comment éviter les arnaques, c’est du conso mag, rien de plus. »

Principale conclusion à tirer sur l’offre d’information économique : elle ne correspond pas aux attentes et aux pratiques des Français.

En appliquant quelques principes basiques de marketing, on devrait déduire de tout ça qu’une offre de contenus clairs et faciles à comprendre, permettant de mieux comprendre l’actualité économique, aurait toutes les chances de rencontrer un public.

Reste à déterminer la forme et le support de ces contenus. Pourquoi pas un site Web de journalisme de données ? La suite de l’article de slate.fr me donne deux raisons de penser que l’idée serait pertinente.

Premièrement, Oriane Claire déplore que la télévision nuise à la bonne compréhension de l’environnement économique, car elle aborde ce sujet par des histoires individuelles plus que par des nombres. Les récits, les témoignages se prêtent mieux au petit écran que les évolutions dans le temps. Le reproche d’Oriane Claire à la télévision pourrait tout aussi bien être fait à la radio ou à la presse traditionnelle. On reconnaît ici le biais du traitement de l’information évoqué par Adina Levin avec le concept de frogboiling : lorsque le traitement de l’actualité se focalise sur les événements, il ne permet pas de faire émerger les tendances de fond. D’où l’importance d’aborder l’information économique via les bases de données, qui permettent de re-contextualiser des chiffres dans le temps et l’espace.

Deuxièmement, selon les spécialistes de l’audiovisuel cités par la journaliste, l’information économique est peu traitée à la télévision car elle « n’est pas visuelle, elle ne rend pas sur écran ». Sous entendu : l’information économique serait mieux traitée par des mots que par des images. A mon avis, ces spécialistes se trompent complètement. Les sondés du CODICE expriment une attente d’information économique simplifiée, contextualisée et facile à appréhender. Impossible à faire passer dans un article de presse, à moins de rédiger un manuel d’économie pour les nuls (je ne vous refais pas la démonstration de cette affirmation, vous la trouverez ici). Plus que par des images, l’information économique doit être traitée par de la visualisation pour répondre aux besoins des Français. Le PIB, la dette publique, le nombre de chômeurs… autant de données qui ne peuvent être comprises sans être mises en relation avec les résultats des années précédentes, les chiffres des autres pays ou le poids de tel ou tel indicateur dans la constitution d’un indice. Encore une fois, tout converge pour conclure que le journalisme de données est la meilleure manière de traiter l’information économique, et qu’il existe là un créneau qui me semble porteur.

Je vais terminer ma démonstration par un exemple. Dans son article, la journaliste Oriane Claire s’attarde sur le traitement du surendettement. Phénomène traité avec un ton tragique à la télévision, mais sans mise en perspective avec la part de la population concernée (moins de 1% des foyers français). Le journaliste de données aurait ici privilégié une comparaison entre la part des foyers surendettés et la part des foyers qui épargnent. Il aurait ainsi pu faire remarquer, comparaisons internationales à l’appui, que la France bénéficie d’un taux d’épargne parmi les plus élevés au monde. Et s’il avait été inspiré, notre journaliste de données en aurait profité pour mettre en relation l’endettement des ménages français (très faible) avec celui de l’Etat français (très fort), une situation qu’il est très intéressant de comparer avec celle d’autres pays européens. En Grande Bretagne par exemple, la situation est inverse, avec un fort endettement privé et un faible endettement public.

Pour le moment, seuls 28% des français consultent de l’information économique sur Internet (sondage CODICE). Gageons que le database journalism fera évoluer cette situation.

Que fait l’IGN pour les journalistes de données ?

Published 27 novembre 2009 Ouverture des données 10 Comments
Étiquettes : 3D, bases de données, cartographie, crime mapping, database journalism, Géoportail, IGN, INSPIRE, New York Times, open data

Commençons par le début : pour faire du journalisme de données, il faut des bases de données. Le premier enjeu du database journalism, avant le modèle économique ou le webdesign, c’est donc l’ouverture des données publiques. Car si les journalistes peuvent collecter eux-mêmes certaines données, ils ont nécessairement besoin, pour les traiter, de bases documentaires existantes.

En effet, la production de sens naît souvent de la confrontation entre deux ou plusieurs bases de données. Le crime mapping, par exemple, met en relation des données géographiques (délimitation des rues et des quartiers) et des données policières (listes de délits) ; de même, le New York Times a mis en parallèle des données sociodémographiques et des données économiques pour produire sa très belle infographie montrant les inégalités face au chômage selon la race, le sexe, l’âge et le niveau de formation.

En France, les principales bases de données géographiques sont détenues par l’IGN (Institut géographique national) et sont accessibles via le site Web de l’établissement public ou via son géoportail. Ce géoportail permet de naviguer en 2D ou en 3D sur des photos aériennes, des cartes et des données géographiques sur l’ensemble du territoire français. Ouvert en 2006, il s’inscrit dans le cadre de la directive européenne INSPIRE (Infrastructure for Spatial Information in the European Community) visant à favoriser la production et l’échange de données géographiques entre Etats membres de l’Union.

L’IGN détient, pour l’ensemble du territoire métropolitain et les départements d’Outre-mer, des bases de données relatives :

– au relief sur la France

– à l’orthophotographie (images aériennes ou satellitales de la surface de la Terre rectifiées géométriquement)

– à l’information cadastrale

– aux adresses

– aux réseaux routiers

– aux limites administratives

– aux toponymes

L’IGN conserve aussi des bases de données géographiques à l’échelle de l’Union européenne

Parmi toutes ces données, certaines sont gratuites, librement exportables, d’autres nécessitent le paiement d’une licence, d’autres encore sont accessibles gratuitement mais sous forme d’échantillon.

Les bases de données librement accessibles en format numérique concernent :

– le référentiel du relief sur la France décrivant la forme du terrain à différentes échelles

– le réseau hydrographique français

– la description de l’ensemble des unités administratives françaises

– le Répertoire Géographique des Communes

– la carte routière 901 IGN sous forme de dalles géoréférencées

– les contours délimitant le monde terrestre et le monde marin

Par ailleurs, l’IGN met à disposition sur son site des fiches techniques de géodésie et de nivellement ainsi que toutes les données issues des différentes stations du Réseau GPS Permanent (RGP).

Les photos aériennes sont également consultables et seront bientôt téléchargeables gratuitement ou à un très bas prix.

Enfin, le géoportail teste une API JavaScript qui permet d’incorporer dans son site Internet des cartographies dynamiques superposant plusieurs couches de données (cartes IGN, photographies aériennes, parcelles cadastrales, routes, bâtiments, limites administratives, réseau hydrographique, réseau ferroviaire…)

Pour le moment, l’API Géoportail est en phase de bêta test, donc téléchargeable gratuitement. A l’avenir, elle nécessitera de souscrire à un contrat spécifique, même si 100 000 pages vues gratuites seront accordées aux sites Internet grand public.

Malgré tout, hors de ces données en accès libre, il faut, pour utiliser les bases de données les plus importantes, acheter une licence coûteuse.

Que conclure à l’issue de cet exposé ?

Les bases de données fournies gratuitement par l’IGN suffisent-elles pour la majorité des cartographies ?

Finalement, qu’offre l’IGN de plus par rapport à ce que Google Map donne déjà ?

N’ayant jamais réalisé de cartographie moi-même, je n’ai pas la réponse à ces questions, mais je suis très curieuse de connaître vos opinions sur la question.

Ouverture des données publiques : la Grande Bretagne sur la bonne voie

Published 18 novembre 2009 Ouverture des données Leave a Comment
Étiquettes : cartographie, crime mapping, database journalism, Gordon Brown, Guardian, opendata, Ordnance Survey, Ouverture des données

Bonne nouvelle pour les database journalistes anglais : le gouvernement britannique devrait rendre disponible gratuitement les cartes élaborées par l’Ordnance Survey, l’agence de cartographie officielle de l’exécutif.

L’info provient du Guardian du 17 novembre : à l’occasion d’une rencontre avec Sir Tim Berners-Lee, inventeur du Word Wide Web, le Premier ministre Gordon Brown a annoncé que près de 2 000 sources de données seraient ouvertes au public d’ici avril.

Toujours d’après le Guardian, le gouvernement britannique aurait été séduit par le succès du crime mapping (cartographie de la délinquance) aux Etats Unis. (Comme quoi, l’exemple du Delaware online traité dans ce précédent post était finalement plus important que je ne le pensais)

Dans le lot de 2 000 bases prochainement ouvertes, les Britanniques pourront trouver des données sur :

-le trafic routier

-le prix des biens immobiliers en fonction du lieu de résidence

-les infractions au code de la route, avec le type d’infraction et leur nombre par zone géographique

Jusqu’à aujourd’hui, ces données n’étaient accessibles qu’après l’achat d’une licence, d’un coût de 5000£ (5 600€) par utilisation.

Pour le Guardian, c’est une belle victoire, puisque le quotidien britannique fait campagne depuis trois ans pour que le gouvernement renonce aux droits d’auteurs sur les données publiques.

Voici un extrait de leur appel pour l’ouverture des données publiques datant de 2006, Free Our Data

“Our taxes fund the collection of public data – yet we pay again to access it. Make the data freely available to stimulate innovation”

Les auteurs, les journalistes Charles Artus et Michael Cross, insistent sur les conséquences néfastes d’un tel statut des données, notamment sur l’innovation et l’entreprenariat.

Et en France, on en est où ?

Le géoportail, réalisation de l’IGN et du ministère de l’Ecologie propose un certain nombre de données cartographiques, librement exportables.

Surtout, notre régime d’accès aux données publiques est défini par la loi du 17 juillet 1978, qui garantit le libre accès aux documents administratifs et la réutilisation des informations publiques.

Dans quelle mesure cette loi permet-elle d’accéder aux données, sous quelles réserve, dans quels délais…. Tout ça sera l’objet d’un prochain post.

Illustration : www.photo-libre.fr

Pourquoi le journalisme de données c’est mieux que le journalisme tout court

Published 11 novembre 2009 Le database journalism : Pourquoi? 2 Comments
Étiquettes : database journalism, evergreen, géolocalisation, interactivité, journalisme traditionnel, micro-local, objectivité, personnalisation

journal

J’ai déjà mentionné dans deux précédents posts (ici et ici) quelques avantages du journalisme de données, ou database journalism :

– Dans un contexte de défiance envers les médias traditionnels, les bases de données apportent une caution d’objectivité

– Auprès d’un grand public dont la culture mathématique reste limitée, l’infographie permet une meilleure appropriation des informations chiffrées

– Elle apporte à l’information une dimension ludique et interactive

– Elle permet aux internautes de personnaliser leur consultation de données, y compris via la géolocalisation

Mais, me répondrez-vous, si les bases de données présentent tant d’avantages, pourquoi les médias traditionnels n’en publient-ils pas plus ?

D’abord parce qu’ils n’en ont pas la place. L’espace est limité dans un journal, les TV n’ont que 24 heures de programmes par jour. Impossible dans ces conditions de donner accès sur chaque sujet à toutes les données, pour tous les échelons du territoire et sur toutes les périodes.

Sur Internet cette contrainte disparaît. Le coût de stockage des données diminue d’année en année, il sera bientôt nul, ou presque.

Autre obstacle au journalisme de données dans les médias traditionnels : leur aspect figé. Pas possible de zoomer sur un détail d’une carte ou de choisir les données à comparer entre elles dans un journal, ni de chercher les données pour ma ville via un moteur de recherche.

On comprend donc mieux pourquoi le database journalism n’a pas vraiment d’intérêt hors du Web.

D’autant plus que les bases de données en ligne présentent au moins trois autres avantages :

1/ Il s’agit d’un contenu evergreen, qui ne se périme pas. Les données et leur visualisation peuvent être réactualisées en permanence, voire même être rafraîchies en temps réel si les bases de données sont reliées à des capteurs.

2/ Le database journalism s’ajute parfaitement aux nouveaux modes de consommation de l’information en ligne. Les internautes ne reçoivent pas passivement les flux d’information comme ils lisaient le journal ou regardaient la télé, ils ont un comportement actif, commentent, complètent, créent ou diffusent ou agrègent des contenus. Les visualisations interactives de bases de données permettent justement une pratique active de l’information : il est possible de rechercher dans une base, de zoomer sur une carte, de personnaliser une infographie, de paramétrer les données à comparer, d’apporter ses propres données….

3/ Le journalisme de données permet d’atteindre le micro-local. Toutes les données hyperlocales, trop insignifiantes pour mériter un article dans la PQR, peuvent trouver leur place dans des bases de données destinées à de petites communautés. Ces dernières seront toujours intéressées par les chiffres de la délinquance dans leur quartier, les résultats scolaires des différentes écoles de la ville, ou la liste des restaurateurs qui s’approvisionnent chez les producteurs locaux.

J’espère vous avoir convaincu de l’intérêt du journalisme de données. Désormais, il ne reste plus qu’à… se mettre au travail : rassembler journalistes, statisticiens, designers et informaticiens pour traiter, indexer et transformer des données brutes en infographies pleines de sens, pour penser leur diffusion sur Internet, pour organiser leur récupération, et les doter d’un modèle économique viable.

Illustration : www.photo-libre.fr

Le database journalism pour nous sauver du « frogboiling »

Published 10 novembre 2009 Le database journalism : Pourquoi? 8 Comments
Étiquettes : bases de données, contenus, data, database journalism, données structurées, frogboiling, journalisme traditionnel, stories

Ou pourquoi le database journalism s’oppose au journalisme traditionnel

GRENOUILLE 5

Pour ce quatrième post, il me semble plus que temps d’esquisser une définition de mon sujet d’étude : en une phrase, le database journalism, ou journalisme de données, consiste à exploiter des bases de données pour en extraire de l’information compréhensible par tous.

Actuellement, les médias traditionnels traitent l’actualité par le récit (stories), ils racontent des histoires. A l’opposé, le database journalism initie un traitement de l’actualité par les données (data). Autrement dit : un dessin vaut mieux qu’un long discours.

Pour ceux qui ne verraient pas d’emblée l’attrait des données par rapport aux récits, je vous renvoie au vibrant plaidoyer de Nicolas Vanbremeersch (aka Versac) sur slate.fr (Pour un journalisme de données). Il y revient sur l’impressionnante ascension de Contador à Verbier, lors du dernier Tour de France, et regrette qu’aucun journal n’ait donné de réponses chiffrées à des questions comme : où se situe Contador par rapport à la vitesse de montée moyenne des coureurs ? que représente sa montée en terme de puissance ? à quoi la comparer ?…

L’homme fait une montée record, et, le lendemain, dans la presse, rien d’autre que du commentaire. On ne donne même pas son temps d’ascension, ou uniquement sur de très rares — et étrangers — sites web. Seule prime l’information de base (il a gagné), et vient ensuite immédiatement le temps du commentaire.

[…] Nulle part, sur le web ou dans le papier, le quidam ne peut retrouver un tableau simple, disposant les données objectives de la montée de Verbier. Nulle part, sur un des plus grands événements internationaux, générant un volume de commentaires et hypothèses absolument énorme […], on ne peut jouer avec des données simples: durée de la montée, poids du coureur, puissance développée, VO2Max…

Le débat, sur ces bases, est faussé. »

Ainsi, des données bien mises en valeur et intelligemment agrégées peuvent être un meilleur moyen de traiter une actualité qu’un article rédigé. Un vrai « renversement de perspective » pour reprendre les termes de Nicolas Kayser-Bril (blogueur sur Window on the media). L’unité de base de l’activité journalistique, traditionnellement, c’est l’article (story); avec le journalisme de donnée, ça devient la base de données. Le commentaire et la narration sont secondaires, les données chiffrées priment. Là où les journalistes traditionnels pensaient en terme de récit, de signature, de titraille, de chapeau et d’accroche, il s’agit de rendre visible les mêmes phénomènes mais à travers le langage des nombres, des bases de données, de l’infographie, de la cartographie et autres visualisations.

« Newspapers need to stop the story-centric worldview », enjoignait déjà en 2006 le journaliste américain Adrian Holovaty, précurseur sur ce thème, dans un article-plaidoyer pour le journalisme de données A fundamental way newspaper need to change.

Journalisme traditionnel et journalisme de données reposent sur deux modèles opposés. Le blogueur Adina Levin le démontre bien dans son post Database journalism – a different definition of “news” and “reader”. Au fondement du journalisme traditionnel on trouve le vieil adage selon lequel les trains qui arrivent à l’heure n’intéressent personne (le modèle man bites dog, en anglais). Seuls les faits inattendus, les événements soudains, méritent d’apparaître dans les journaux. Il est rare qu’on y rende compte des petites évolutions, des dynamiques de long terme.

Cette suprématie de l’actualité chaude rend nos sociétés vulnérables au frogboiling avertit Adina Levin. Le concept est tiré d’une légende urbaine selon laquelle la grenouille dont l’eau du bocal se réchauffe graduellement s’habitue au changement de température. Elle ne saute pas hors du bocal, même quand l’eau se met à bouillir. D’où, mort de la grenouille. De la même façon, l’encombrement de telle ou telle route départementale ne sera pas perçu comme un problème, jusqu’à ce qu’un grave accident ne fasse les gros titres.

En opposition au journalisme traditionnel, le database journalism met justement en valeur les tendances de fond et leur donne un sens. Par une visualisation appropriée, des données compilées depuis des années peuvent raconter des histoires.

Sans vouloir dramatiser en accentuant le côté « nos vies sont en danger sans journalisme de données », je crois qu’il existe de réelles attentes pour un traitement de l’actualité par les chiffres. L’absence d’une telle démarche à destination du grand public suscite un manque d’autant plus grand que le nombre de données structurées disponible augmente constamment. Dans son article Demain, l’intelligence des données, Hubert Guillaud (InternetActu) démontre que la masse de données brutes accessible via Internet va être décuplée dans les prochaines années, grâce au développement des capteurs, puces RFID ou autres interfaces connectées.

Sans attendre jusque là, les administrations françaises mettent à disposition de nombreuses bases de données. Pour autant, quel journal nous a présenté une infographie intelligente pour faire sentir l’ordre de grandeur de la dette publique, ou le niveau d’étude moyen des dirigeants des établissements publics français ?

Assez d’articles, on veut des contenus !

Illustration : www.photo-libre.fr

Exemple de database journalism : La cartographie de la criminalité dans l’état du Delaware

Published 5 novembre 2009 Des exemples de database journalism 1 Comment
Étiquettes : cartographie, criminalité, database journalism, Delawareonline, The News Journal

Comme promis, j’entame avec ce post une série d’exemples de database journalism.

Le quotidien américain The News Journal (Ganett Corporation) publie sur son site Web www.delawareonline.com une cartographie de la criminalité de l’état du Delaware.

Le site s’appuie sur l’application Google Map qui permet de créer des cartes personnalisées. Il s’agit donc d’un module très simple, accessible à n’importe quel site d’info.

Chaque parcelle du territoire est colorée selon le nombre de crimes qui s’y sont déroulés. La carte permet de zoomer manuellement ou d’entrer son code postal, pour obtenir plus de détails sur une zone précise. Il est ainsi possible d’obtenir une idée du niveau de criminalité pour chaque district.

La base de données sur laquelle est construite la carte est également consultable sur le site. Elle est mise à jour toutes les semaines et rend compte des crimes commis au cours du dernier mois. Les données sont fournies par l’état du Delaware, qui agrège les rapports des agences de police. Seuls les viols ne sont pas répertoriés pour protéger la vie privée des victimes.

En définitive : une cartographie simple mais efficace, qui permet une autre approche des faits divers, en les quantifiant et en les géo-localisant. Ce que les pages « faits divers » de la PQR ne peuvent faire.

Il existe, bien sûr, des exemples de journalisme de données plus ambitieux, mais ce sera pour un prochain post.

Le database journalism : à la croisée des grandes tendances du Web

Published 2 novembre 2009 Le database journalism : Pourquoi? 7 Comments
Étiquettes : crowdsourcing, database journalisme, données publiques, géolocalisation, Internet des objets, journalisme de données, opendata, personnalisation, temps réel, visualisation, Web social, Web-design

Comme expliqué dans la page « A propos », mon exploration du database journalism est sensée nourrir un projet de lancement d’un site d’info basé sur du journalisme de données.

Si je voulais faire simple, je pourrais résumer mon projet à un site d’infographies. Evidemment, ça ne serait pas aussi attractif : l’idée de compiler sur des pages Web des dizaines d’infographies telles qu’on a l’habitude de les voir dans les pages de nos journaux ferait même plutôt fuir.

Un petit post s’impose donc pour convaincre d’éventuels réticents que le journalisme de données, ou database journalism, est bien au cœur des dernières tendances du Web, et qu’il résonne de promesses captivantes.

Le database journalism s’inscrit à la croisée de plusieurs grandes tendances :

1/Le Web-design et la 3D : de l’infographie en trois dimensions, animée, percutante, ça change tout ! Ca pourrait même réconcilier nos concitoyens avec les nombres (cf sur ce blog: un problème avec les nombres ?).

2/La personnalisation : la délinéarisation, la fragmentation voire l’individualisation, de la consommation d’information sont désormais caractéristiques des usages du Web. La mise à disposition de bases données via des interfaces graphiques peut justement offrir une personnalisation poussée de l’information. Une infographie interactive peut ainsi être plus ou moins largement paramétrée par l’utilisateur : choix du zoom, délimitation de la zone géographique, sélection des dimensions comparées, personnalisation des critères de visualisation… Chaque infographie devient ainsi unique, parfaitement adaptée aux besoins d’un internaute à un moment précis de son parcours de navigation.

3/La géolocalisation : la personnalisation appliquée à la situation géographique de l’internaute. Cela peut permettre, par exemple, à chaque Internaute d’entrer dans les infographies différemment selon l’endroit où il se trouve. Résultat : un impact bien plus grand des données présentées. La carte du taux de mortalité par accident de la route suscite moins la curiosité si elle est présentée à l’échelle de la France qu’à celle de son quartier.

4/La transparence des données publiques : l’administration Obama a donné une vraie impulsion en janvier dernier en ouvrant l’accès à un catalogue de données brutes de l’Etat américain, sur le site data.gov. Le gouvernement britannique s’y est mis aussi (http://innovate.direct.gov.uk/). Le mouvement d’ouverture des bases de données est lancé, mais les données brutes restent difficilement lisibles sans médiation graphique. Il ne reste donc plus qu’à s’en saisir pour y greffer des interfaces de visualisation éditorialisées. C’est ici que le database journalism trouve sa place.

5/Le Web social et le crowdsourcing: Non seulement les internautes ont la possibilité de personnaliser les infographies, mais ils peuvent également contribuer à récolter les données. Pour analyser les 458 mille pages sur les notes de frais des députés britanniques, le Guardian a, par exemple, demandé à ses lecteurs-volontaires d’analyser chacun un petit bout du document. La participation des internautes permet à la fois de collecter des données micro-locales et de fédérer des communautés autour des bases de données.

6/L’Internet des objets et le temps réel : l’étiquetage électronique des objets, via des puces Rfid capables de transmettre ou d’enregistrer des données, ouvre la voie à de nouvelles façons de collecter l’information. Un capteur, encapsulé dans une montre ou n’importe quel objet usuel, peut, par exemple, donner des indications géo-localisées, en temps réel, sur la pollution de l’air. La transmission des données entre puces Rfid et espaces de stockages numériques peut se faire automatiquement, et être intégrée à des infographies réactualisées en permanence. (Voir l’article de Daniel Kaplan sur InternetActu.net)

J’essaierai, bien entendu, de développer toutes ces dimensions du database journalism dans mes prochains posts.

Et, promis, je vous donnerai par la suite des exemples commentés de journalisme de données.

Illustration : www.photo-libre.fr

Un problème avec les nombres ?

Published 1 novembre 2009 Le database journalism : Pourquoi? 3 Comments
Étiquettes : Darcos, database journalism, données, Ruquier

Premier post pour ce blog dédié au database journalism ou journalisme de données, et un petit épisode télévisuel va me permettre d’entrer dans le sujet:

Samedi 10 octobre 2009, le journaliste-présentateur TV Laurent Ruquier recevait Xavier Darcos, actuel ministre du Travail, dans l’émission « On n’est pas couché », sur France 2

RUQUIER : Je reviens sur le nombre de chômeurs, en plus il paraît que vous êtes un peu fâché avec les chiffres, ce n’est pas votre truc

DARCOS : Oui, bah je suis un littéraire moi…

RUQUIER : Mais quand même à vu de nez, pour l’année 2009, il y aura combien de chômeurs ?

DARCOS : Je ne dis plus aucun chiffre, parce que… »

(voir la vidéo ci-dessous pour retrouver l’interview complète)

D’accord, Xavier Darcos a été quelques peu échaudé par le calcul mental à la TV lorsqu’il était ministre de l’Education Nationale, mais l’épisode reste quand même assez révélateur de l’embarras de bien des Français lorsqu’ils sont confrontés aux nombres, et surtout face aux grands nombres. Je ne parle pas de concepts mathématiques, ni même de calcul mental, simplement, pour beaucoup, les nombres ne sont pas parlants.

Le montant de la dette ? la part des chômeurs ? les sommes perdues par telle ou telle banque ? Ces nombres ne produisent que peu de sens pour la majorité, ils ne suscitent aucune représentation.

D’ailleurs, c’est une recommandation que m’avaient faite mes rédacteurs en chef lors de mes derniers stages en journalisme : éviter les grands nombres, ils alourdissent les articles et restent abstraits.

Donc, beaucoup de concitoyens digèrent mal les grands nombres, et les médias traditionnels n’aiment pas les manipuler. (Je ne m’étends pas ici sur le manque de culture mathématique de bien des journalistes, je vous renvois plutôt à la démonstration de Fabrice Epelboin sur RWW).

En parallèle, on voit se développer un mouvement de perte de confiance envers les médias traditionnels, et une volonté de se nourrir directement aux sources de l’information.

Et c’est ici que tout se cristallise : Internet permet à la fois un accès direct aux données brutes et meilleure appropriation des nombres grâce à de nouveaux modes de traitement des données chiffrées.

D’où l’intérêt du database journalism à mes yeux :

1/Réconcilier les lecteurs-internautes avec les données chiffrées grâce à des infographies beaucoup plus interactives et parlantes que celles auxquelles nous ont habitués les médias traditionnels.

2/S’appuyer sur le mouvement de rejet du journalisme traditionnel, en promettant un accès facile, clair et direct aux données.

Le chiffre de la dette publique française devient tout de suite plus signifiant s’il est possible de visualiser son évolution dans le temps ou de le comparer à celui d’autres pays.

Alors, convaincus ?

	serrurier bordeaux dans Data Data Data
	Qu’est-ce que… dans Data journalism : pourquoi les…
	Qu’est-ce que… dans 7 études de cas en data journa…

Fermeture du blog databasejournalisme.wordpress.com

Désormais vous retrouverez tous mes billets sur notre nouvelle plateformes ActuVisu à l’adresse http://blog.actuvisu.fr/

Suite de notre suivi des élections britanniques, toujours en compagnie de FX, ami, collègue et blogueur sur Datanamics.

J’ai eu l’impression, ces derniers jours, de répéter plusieurs fois la même chose à des personnes différentes. (Ce qui est un vrai plaisir quand il s’agit de datajournalism). D’où l’idée d’articuler ici ces quelques éléments récurrents.

1-Compréhension : Le datajournalism permet de mieux comprendre le monde.

2.Personnalisation : Le datajournalism permet de personnaliser la vue sur le monde

3.Investigation : Le data journalisme permet d’éclairer autrement le monde.

4.Participation : Le data journalism permet de participer à la description du monde

Au menu : une très bonne visualisation d’Elsa Secco, des explications sur sa réalisation et quelques mots d’éditorialisation.

Côté rédactions :

Des rédactions en manque de moyens financiers…

… en manque de moyens humains

… en manque de culture web

… en manque d’approche statistique

Des journalistes américains au service des communautés locales ?

Côté environnement :

Une culture de la transparence différente entre la France et les pays anglo-saxons

Pas de consensus sur la valeur économique de l’ouverture des données en France

Les conditions juridiques de la réutilisation des bases de données

L’enjeu de la structuration des données

Illustration : http://www.sxc.hu/

Beaucoup de veille en ce moment, et peu d’écrit. Voici quand même quelques études de cas à vous faire partager.

Raw Data Now

La visualisation de données est un des grands défis de ce siècle.

Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.

L’an dernier, la page la plus visitée du site du New York Times fut une infographie interactive. Le problème, c’est que les groupes de presse français disent ne pas savoir où trouver les talents pour faire un travail de cette qualité.

Illustration : www.memoclic.com

1-Le site Web comme espace clos

2-Les contenus décentralisés

Quelques pistes pour l’avenir

Illustrations : Stock.XCHNG

Illustration : www.photo-libre.fr

Illustration : www.photo-libre.fr

Illustration : www.photo-libre.fr

Ou pourquoi le database journalism s’oppose au journalisme traditionnel

Illustration : www.photo-libre.fr

Illustration : www.photo-libre.fr

Rechercher

Articles les plus consultés

Derniers commentaires

Catégories

RSS

Newsletter

Tags

Contact :

Blog Stats