Blog Arolla

Dataviz & BigData : mythes & réalités [TechDays 2014]

Cette session du premier jour des TechDays 2014 était vraiment intéressante et pédagogique. Elle était présentée par Jean-Daniel Fekete, directeur de recherche à Inria Saclay-Ile de France et spécialiste de “l’analyse et la visualisation d’informations volumineuses et complexes.”

Dataviz ou Infoviz ?

Tout d’abord, quelle différence entre Dataviz, Infographie et Infoviz ?

  • Dataviz (Data Visualization) : c’est pour afficher des données (ok)
  • Infographie : c’est pour la presse, c’est graphique
  • Infoviz (Information Visualization) : c’est interactif pour interagir avec les données

Parmi toutes ces visualisations, on trouve beaucoup de choses, avec une grande variété de styles, et pour beaucoup elles sont très belles. Mais toutes ces visualisations sont-elles vraiment efficaces ?

dataviz

Et pour commencer, un premier principe fondamental : tout le monde sait comprendre les visualisations congruentes. Congruentes ? Ça mérite une explication !

Une histoire de congruence

La congruence, c’est lorsqu’une visualisation se lit de la même façon que la question qu’on se pose :

congruenteviz

  • Qui est le plus grand ou le plus petit ? C’est facile à voir sur un bargraphe. Chercher le plus grand dans le problème appelle le même comportement visuel de chercher la barre la plus grande dans le graphique.
  • Quelle est la répartition d’un budget total ? Un camembert est parfaitement approprié.
  • Évolution d’une tendance dans le temps ? Line chart conviendra.
  • Étudier les connections entre des gens ? Un graphe de réseau avec des nœuds et des liens est une représentation assez naturelle.

Passons désormais aux Treemaps : on peut rapidement les comprendre. Mais si on regarde les Treemaps parues dans Le Monde et dans Libération, on constate qu’elles diffèrent nettement. Elles proviennent en effet toutes d’outils de visualisation interactive, où l’utilisateur a la liberté d’effectuer certains choix qui bien entendu influencent le résultat.

À ce stade, il est illusoire d’imaginer qu’un simple dessin puisse tout dire, c’est bien plus compliqué les données ! Si on n’interagit pas, on ne peut pas bien comprendre les données.

scatterviz

D’autres visualisations comme le scatter plot (nuage de points) demandent un apprentissage. Pour ceux d’entre vous rompus à des études supérieures, c’est familier et il est parfois difficile d’imaginer une difficulté de lecture. Pour les autres, c’est pas bien long à comprendre, 2mn ou 10mn suffisent, mais ça suffira pour qu’un lecteur non éduqué ignore la page qui porte ce genre de visualisation.

On remarque alors que ce qu’on peut comprendre spontanément est bien mais pas très efficace, tandis que pour être efficace alors il faut apprendre un minimum.

Visualiser des grosses données ?

Prenons alors l’exemple du choix d’un appareil photo parmi des centaines de modèles et en observant 12 critères. Jean-Daniel présente alors une interfaces “à facettes” pour confronter visuellement 2 dimensions à la fois, par exemple le prix et la résolution effective, et ce successivement par sélections imbriquées. Une animation de rotation visuelle en 3D montre le changement d’axe, même si en fait les dimensions alternent parmi 12, bien au-delà des 3 dimensions de notre expérience familière.

infoviz12

Certaines visualisations sont tellement encombrées qu’elles en deviennent inexploitables. Par exemple l’application inmaps sur Linkedin affiche l’intégralité de votre réseau LinkedIn. C’est très beau mais si vous avez 500 connections alors c’est très poilu. Sans surprise, vous êtes au centre, car tous les contacts affichés ont par construction une connection avec vous. La visualisation est alors encombrée de 500 liens qui n’apportent aucune information utile. Cela dit, les masquer ne suffirait sans doute pas à rendre la visualisation suffisamment claire.

Dans le cas de grands volumes de données, Dataviz et Machine Learning font bon ménage. L’idée est d’alterner entre analyse des données par Machine Learning et Visualisation, pour gagner à mieux comprendre les données et ainsi découvrir comment les présenter efficacement. Cela pourra éventuellement nécessiter des omissions ou autres partis pris.

On aura compris dans que le principal écueil en Dataviz est la méconnaissance des règles essentielles de visualisation. À défaut, votre visualisation sera certes très belle mais probablement incompréhensible.

Pour aller plus loin

Techniquement il n’y a pas de difficulté particulière, avec des librairies disponibles dans la plupart des langages, Python, Java, et désormais la fameuse librairie d3 en Javascript qui offre l’avantage de pouvoir s’inviter dans tous les navigateurs de votre audience.

Enfin à côté de la visualisation on parle aussi d’oralisation pour présenter de données sous forme auditive. L’inconvénient est une bande passante très réduite comparée aux canaux visuels, mais avec l’avantage pour le sujet de pouvoir faire abstraction du contenu auditif.

A noter aussi qu’après des années sur le continent américain la conférence de l’EEE VIS 2014 arrive à Paris pour son édition 2014. Ce sera en novembre, avec la présence de tous les spécialistes mondiaux du domaine. À vos agendas !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *