Posts Tagged 'données structurées'

Ce qu’aurait pu être le Sarkomètre du Nouvel Obs

Bookmark and Share

Avec son Sarkomètre, le Nouvel Obs a mis un pied dans les données structurées. Une avancée incontestable, mais si timide qu’elle souligne finalement l’ampleur du fossé  qui sépare encore la presse traditionnelle de la visualisation de données.

Reprenons. Le 1er février dernier, lenouvelobs.com publiait un tableau récapitulant, pour 113 promesses  formulées par Nicolas Sarkozy pendant la dernière campagne présidentielle, si l’engagement a été tenu, oublié ou engagé.

La base de données constituée par les journalistes comprend également, pour chaque promesse, sa thématique, la déclaration originelle du candidat Sarkozy, et un commentaire de la rédaction du Nouvel Observateur.

Il s’agit effectivement d’une démarche de structuration de données : publier dans un tableau ce qui d’ordinaire est publié par le Nouvel Obs sous forme d’article, de récit, en croisant des indicateurs (thème, promesse, déclaration, réalisation, commentaire) et des variables (les 113 promesses).

Le Nouvel Obs reprend ici la démarche de Politifact, avec son Obameter (The Obameter : Tracking Obama’s Campaign Promises), qui a noté plus de 500 promesses faites par Barack Obama pendant sa dernière campagne selon leur degré de réalisation (Promise Kept, Compromise, Promise Broken, Stalled, In the Works, Not yet rated).

Politifact est un projet de journalisme innovant lancé par Matt Waite au sein du St. Petersburg Time en 2008, pendant la campagne pour les élections présidentielles aux Etats-Unis : le site évaluait la véracité des propos tenus par les hommes politiques sur une échelle allant de « True » à « False » en passant par « Mostly True », « Half True » et « Barely True ».

Revenons d’abord sur le principal bon point du Sarkomètre : il a été publié via Socrata, une plateforme d’hébergement et de publication de bases de données. Avantages de la solution Socrata :

  • Interactive : l’interface de Socrata permet aux internautes de trier, de masquer ou de compiler les données par ligne ou par colonne.
  • Conversationnelle: les internautes peuvent noter et commenter la base de données
  • Virale : les internautes peuvent partager le Sarkomètre via Delicious, Digg, Facebook et Twitter
  • Ouverte : la base de données peut être librement publiée sur d’autres sites/blogs via un Social Data Player embeddable, il est possible de télécharger la base de donnée sous différent formats ou d’y accéder via l’API Socrata.

En passant par Socrata, le Nouvel Obs respecte tous les codes de l’open data. La base de donnée est libre, et cela représente une petite révolution dans un univers journalistique plutôt enclin à s’accrocher aux droits d’auteurs.

Maintenant cette belle avancée signalée, venons-en aux insuffisances.

Le tableau réalisé par le Nouvel Obs nous permet d’échapper à un article long, répétitif, encombré de formules destinées garder l’attention du lecteur tout en déroulant les 113 promesses. C’est déjà un beau progrès, mais le Nouvel Obs aurait pu aller beaucoup plus loin.

Le Sarkomètre ne nous permet pas de nous rendre compte instantanément que sur 103 promesses :

-31 ont été tenues

-39 ont été engagées

-43 ont été oubliées

Il ne nous permet pas de voir du premier coup d’œil que les thématiques ayant fait l’objet du plus grand nombre de promesses sont :

-La fiscalité (10 promesses)

-La famille (8 promesses)

-La santé (8 promesses)

-L’éducation (7 promesses)

Et que ces thématiques affichent des taux différents de conversion des promesses en engagements tenus :

-Fiscalité : promesses tenues à 40% (4 promesses tenues sur 10)

-Famille : promesses tenues à 0% (0 promesse tenue sur 8 )

-Santé : promesses tenues à 25% (2 promesses tenues sur 8 )

-Education : promesses tenues à 29% (2 promesses tenues sur 7)

Pour cela, il aurait fallu que le Nouvel Obs réfléchisse à la visualisation de sa base de données.

Voyons maintenant ce que le Sarkomètre aurait pu être.

Puisque je n’ai ni le temps ni l’équipe nécessaire à la réalisation de ces visualisations (mais il pourrait un jour en être autrement), je vous propose simplement quelques exemples de graphisme.

Le Sarkomètre aurait pu proposer :

  • Une visualisation qui permette d’identifier en un clin d’œil quelle est la proportion des promesses tenues.

Comme sur l’Obameter :

  • Une visualisation représentant la part relative de chaque thématique dans les promesses tenues/en cours de réalisation/abandonnées

Comme pour l’agenda du président Obama analysé par le Washington post :

Ou à la façon de Where does my money go

  • Une visualisation représentant les ratios promesse tenues/promesses formulées pour chaque thématique

Comme sur cette visualisation de l’évolution du pouvoir d’achat des foyers américains sur Flowing Data :

  • Une timeline mettant en évidence le rythme de réalisation des promesses et les priorités de l’équipe gouvernementale

Comme la timeline d’ABC News sur la dernière campagne présidentielle américaine :

  • Une visualisation graphique du champ lexical de la formulation des promesses dans les discours du candidat Sarkozy

Comme sur Capitol Words :

Ou comme dans la rubrique In Obama’s Words du Washington Post :

  • Même un simple petit curseur, comme sur Politifact aurait déjà été plus parlant.

Conclusion : structurer des donnée ne suffit pas, un travail d’éditorialisation est nécessaire pour faire ressortir des idées de la base de données.

Creative Commons License

« On l’a pas en format ordinateur »

Bookmark and Share


Nicolas Kayser-Bril, data journaliste et blogueur invité, propose un retour d’expérience sur un projet qu’il publiera au printemps prochain

Un projet de database journalisme commence toujours par la récolte des données. Très opportunément, plein d’organismes étatiques adorent collecter des données, que ce soit le nombre de plantations de kiwi dans le Tarn-et-Garonne (187 d’après Agreste) ou le nombre de menaces ou chantage dans le Nord (384 en octobre d’après Cartocrime).

L’administration adore les bases de données. Et souvent, elle ne rechigne pas à les mettre en ligne.

Là où le bas blesse, c’est qu’elle fait tout pour que ces données restent cloisonnées, en dehors du web. La preuve ? Impossible de faire un lien vers les ressources que j’ai citées plus haut.

Je travaille en ce moment sur un projet agrégeant des données départementales. Ce qui implique d’appeler chaque préfecture. A quelques exceptions près, les fonctionnaires transmettent les fichiers demandés (faut dire que ce sont des données déjà publiées hors-ligne).

La qualité des documents, en revanche, laisse à désirer. 20% des fichiers sont au format Excel. 10% au format Word. Le reste, du PDF. En enlevant les tableurs faits avec les pieds et en rajoutant les pdfs convertis depuis Excel, environ 25% des données sont structurées, c’est-à-dire lisibles par un ordinateur.

Exemple imaginaire :

Donnée non-structurée : « Les classes de CM2 de l’école du quartier Saint-Jean sont fermées pour cause de grippe A. Les élèves concernées sont priés de rester chez eux, sauf ceux inscrits à la chorale, qui pourront répéter à l’école Jean Moulin. »

Donnée structurée :

Au-delà du problème de la structuration des données, force est de constater que les administrations ont du mal à passer à l’informatique. Un nombre non-négligeable de préfectures, environ 10%, n’y comprennent tellement rien que j’ai eu du mal à ne pas mourir de rire au téléphone.

La palme de l’inefficacité revient à celles qui ont pris le temps de scanner des documents Word imprimés. Mais le meilleur reste cette réplique d’un charmant fonctionnaire d’Evreux : « Désolé, on l’a pas en format ordinateur ».

Ouvrir les données, c’est bien. Les rendre exploitables, c’est mieux. Dans la plupart des pays moins corrompus que la France, l’accès aux données est une question réglée depuis plusieurs années. Le nouveau débat concerne leur format et leur facilité d’accès.

Le Sénat américain propose le résultat des votes au format XML depuis mai dernier. Beaucoup plus simplement, le gouvernement suédois tente de rassembler en un même portail l’ensemble des bases de données de ses ministères en indiquant leur degré de structuration (opengov.se).

Le problème a apparemment été discuté à l’Opendata Barcamp à Paris vendredi dernier (mais pas moyen de savoir quelles en ont été les conclusions).

Auteur : Nicolas Kayser-Bril

Creative Commons License

Illustration : www.photo-libre.fr

Le database journalism pour nous sauver du « frogboiling »

Bookmark and Share


Ou pourquoi le database journalism s’oppose au journalisme traditionnel

GRENOUILLE 5

Pour ce quatrième post, il me semble plus que temps d’esquisser une définition de mon sujet d’étude : en une phrase, le database journalism, ou journalisme de données, consiste à exploiter des bases de données pour en extraire de l’information compréhensible par tous.

Actuellement, les médias traditionnels traitent l’actualité par le récit (stories), ils racontent des histoires. A l’opposé, le database journalism initie un traitement de l’actualité par les données (data). Autrement dit : un dessin vaut mieux qu’un long discours.

Pour ceux qui ne verraient pas d’emblée l’attrait des données par rapport aux récits, je vous renvoie au vibrant plaidoyer de Nicolas Vanbremeersch (aka Versac) sur slate.fr (Pour un journalisme de données). Il y revient sur l’impressionnante ascension de Contador à Verbier, lors du dernier Tour de France, et regrette qu’aucun journal n’ait donné de réponses chiffrées à des questions comme : où se situe Contador par rapport à la vitesse de montée moyenne des coureurs ? que représente sa montée en terme de puissance ? à quoi la comparer ?…

L’homme fait une montée record, et, le lendemain, dans la presse, rien d’autre que du commentaire. On ne donne même pas son temps d’ascension, ou uniquement sur de très rares — et étrangers — sites web. Seule prime l’information de base (il a gagné), et vient ensuite immédiatement le temps du commentaire.

[…] Nulle part, sur le web ou dans le papier, le quidam ne peut retrouver un tableau simple, disposant les données objectives de la montée de Verbier. Nulle part, sur un des plus grands événements internationaux, générant un volume de commentaires et hypothèses absolument énorme […], on ne peut jouer avec des données simples: durée de la montée, poids du coureur, puissance développée, VO2Max…

Le débat, sur ces bases, est faussé. »

Ainsi, des données bien mises en valeur et intelligemment agrégées peuvent être un meilleur moyen de traiter une actualité qu’un article rédigé. Un vrai « renversement de perspective » pour reprendre les termes de Nicolas Kayser-Bril (blogueur sur Window on the media). L’unité de base de l’activité journalistique, traditionnellement, c’est l’article (story); avec le journalisme de donnée, ça devient la base de données. Le commentaire et la narration sont secondaires, les données chiffrées priment. Là où les journalistes traditionnels pensaient en terme de récit, de signature, de titraille, de chapeau et d’accroche, il s’agit de rendre visible les mêmes phénomènes mais à travers le langage des nombres, des bases de données, de l’infographie, de la cartographie et autres visualisations.

« Newspapers need to stop the story-centric worldview », enjoignait déjà en 2006 le journaliste américain Adrian Holovaty, précurseur sur ce thème, dans un article-plaidoyer pour le journalisme de données A fundamental way newspaper need to change.

Journalisme traditionnel et journalisme de données reposent sur deux modèles opposés. Le blogueur Adina Levin le démontre bien dans son post Database journalism – a different definition of “news” and “reader”. Au fondement du journalisme traditionnel on trouve le vieil adage selon lequel les trains qui arrivent à l’heure n’intéressent personne (le modèle man bites dog, en anglais). Seuls les faits inattendus, les événements soudains, méritent d’apparaître dans les journaux. Il est rare qu’on y rende compte des petites évolutions, des dynamiques de long terme.

Cette suprématie de l’actualité chaude rend nos sociétés vulnérables au frogboiling avertit Adina Levin. Le concept est tiré d’une légende urbaine selon laquelle la grenouille dont l’eau du bocal se réchauffe graduellement s’habitue au changement de température. Elle ne saute pas hors du bocal, même quand l’eau se met à bouillir. D’où, mort de la grenouille. De la même façon, l’encombrement de telle ou telle route départementale ne sera pas perçu comme un problème, jusqu’à ce qu’un grave accident ne fasse les gros titres.

En opposition au journalisme traditionnel, le database journalism met justement en valeur les tendances de fond et leur donne un sens. Par une visualisation appropriée, des données compilées depuis des années peuvent raconter des histoires.

Sans vouloir dramatiser en accentuant le côté « nos vies sont en danger sans journalisme de données », je crois qu’il existe de réelles attentes pour un traitement de l’actualité par les chiffres. L’absence d’une telle démarche à destination du grand public suscite un manque d’autant plus grand que le nombre de données structurées disponible augmente constamment. Dans son article Demain, l’intelligence des données, Hubert Guillaud (InternetActu) démontre que la masse de données brutes accessible via Internet va être décuplée dans les prochaines années, grâce au développement des capteurs, puces RFID ou autres interfaces connectées.

Sans attendre jusque là, les administrations françaises mettent à disposition de nombreuses bases de données. Pour autant, quel journal nous a présenté une infographie intelligente pour faire sentir l’ordre de grandeur de la dette publique, ou le niveau d’étude moyen des dirigeants des établissements publics français ?

Assez d’articles, on veut des contenus !

Creative Commons License

Illustration : www.photo-libre.fr

Inscrivez votre adresse e-mail pour vous abonner à ce blog et être averti de mes nouveaux posts par e-mail

Rejoignez 25 autres abonnés

Sélection de liens

Contact :

goulard.caroline@gmail.com

Blog Stats

  • 34,043 hits

Visuel d'en-tête : Photos Libres