Quand la visualisation interactive des données est-elle utile à utiliser?

17

Alors que je me prépare pour une conférence que je donnerai bientôt, j'ai récemment commencé à creuser dans deux outils principaux (gratuits) pour la visualisation interactive des données: GGobi et mondrian - tous deux offrent une large gamme de capacités (même si elles sont un peu boguées).

Je souhaite vous demander votre aide pour articuler (à la fois pour moi et pour mon futur public) Quand est-il utile d'utiliser des graphiques interactifs? Soit pour l'exploration de données (pour nous-mêmes) et la présentation de données (pour un "client")?

Pour expliquer les données à un client, je peux voir la valeur de l'animation pour:

  • Utiliser "identifier / relier / brosser" pour voir quel point de données dans le graphique est quoi.
  • Présentation d'une analyse de sensibilité des données (ex: "si nous supprimons ce point, voici ce que nous obtiendrons)
  • Montrant l'effet de différents groupes dans les données (par exemple: "regardons nos graphiques pour les hommes et maintenant pour les femmes")
  • Montrer l'effet du temps (ou de l'âge, ou en général, offrir une autre dimension à la présentation)

Pour l'exploration des données nous-mêmes, je peux voir la valeur de l'identification / la liaison / le brossage lors de l'exploration d'une valeur aberrante dans un ensemble de données sur lequel nous travaillons.

Mais à part ces deux exemples, je ne sais pas quelle autre utilisation pratique ces techniques offrent. Surtout pour notre propre exploration de données!

On pourrait faire valoir que la partie interactive est bonne pour explorer (par exemple) un comportement différent de différents groupes / grappes dans les données. Mais lorsque (dans la pratique) je me suis approché d'une telle situation, ce que j'avais tendance à faire était d'exécuter les procédures statistiques pertinentes (et les tests post-hoc) - et ce que j'ai trouvé significatif, je tracerais ensuite avec des couleurs divisant clairement les données au groupes concernés. D'après ce que j'ai vu, il s'agit d'une approche plus sûre que de "se demander" les données (ce qui pourrait facilement conduire à un dragage de données (si la portée de la comparaison multiple nécessaire pour la correction n'est même pas claire).

Je serais très heureux de lire votre expérience / vos réflexions à ce sujet.

(cette question peut être un wiki - bien qu'elle ne soit pas subjective et une réponse bien pensée gagnera volontiers mon "réponse" :))

Tal Galili
la source
3
Au moins dans mon cas, je suis un peu dans le même bateau. J'apprécie Mondrian et je le tiens à jour, mais lorsque j'explore un nouvel ensemble de données, il a tendance à être en R, qui est moins interactif mais plus flexible dans l'ensemble. J'ai commencé à vous écrire une réponse complète et j'ai réalisé que je parlais de la théorie et non de l'expérience réelle.
Wayne

Réponses:

8

En plus de lier des données quantitatives ou qualitatives à des modèles spatiaux, comme illustré par @whuber, je voudrais mentionner l'utilisation de l'EDA, avec le brossage et les différentes liaisons de parcelles ensemble, pour l' analyse de données longitudinales et de grande dimension .

Les deux sont discutés dans l'excellent livre, Interactive and Dynamic Graphics for Data Analysis With R and GGobi , par Dianne Cook et Deborah F. Swayne (Springer UseR !, 2007), que vous connaissez sûrement. Les auteurs ont une belle discussion sur l'EDA dans le chapitre 1, justifiant la nécessité pour l'EDA de «nous forcer l'inattendu», citant John Tukey (p. 13): L'utilisation d'affichages interactifs et dynamiques n'est ni une surveillance de données , ni des données préliminaires inspection (par exemple, des résumés purement graphiques des données), mais il est simplement considéré comme une enquête interactive des données qui pourrait précéder ou compléter la modélisation statistique basée sur des hypothèses pures.

L'utilisation de GGobi avec son interface R ( rggobi ) résout également le problème de la génération de graphiques statiques pour un rapport intermédiaire ou une publication finale, même avec Projection Pursuit (pp. 26-34), grâce aux packages DescribeDisplay ou ggplot2 .

Dans le même ordre d'idées, Michael Friendly préconise depuis longtemps l'utilisation de la visualisation des données dans l'analyse des données catégorielles, qui a été largement illustrée dans le package vcd, mais aussi dans le package vcdExtra plus récent (y compris la visualisation dynamique via le package rgl ), qui agit comme une colle entre les packages vcd et gnm pour étendre les modèles log-linéaires. Il a récemment un bon résumé de ce travail au cours de la 6e CARME conférence, Les progrès réalisés dans Visualizing données catégorielles Utilisation du vcd, GNM et vcdExtra packages R .

Par conséquent, l'EDA peut également être considérée comme fournissant une explication visuelle des données (dans le sens où elles peuvent expliquer des tendances inattendues dans les données observées), avant une approche de modélisation purement statistique ou en parallèle. Autrement dit, l'EDA fournit non seulement des moyens utiles pour étudier la structure interne des données disponibles, mais il peut également aider à affiner et / ou à résumer les modèles statistiques qui y sont appliqués. C'est essentiellement ce que les biplots permettent de faire, par exemple. Bien qu'il ne s'agisse pas en soi de techniques d'analyse multidimensionnelle , ce sont des outils permettant de visualiser les résultats d'une analyse multidimensionnelle (en donnant une approximationdes relations lorsque l'on considère tous les individus ensemble, ou toutes les variables ensemble, ou les deux). Les scores factoriels peuvent être utilisés dans la modélisation ultérieure à la place de la métrique d'origine pour réduire la dimensionnalité ou pour fournir des niveaux intermédiaires de représentation.

Sidenote

Au risque d'être démodé, j'utilise toujours xlispstat( Luke Tierney ) de temps en temps. Il a des fonctionnalités simples mais efficaces pour les écrans interactifs, actuellement non disponibles dans les graphiques de base R. Je ne connais pas de capacités similaires dans Clojure + Incanter (+ Processing).

chl
la source
8

La liaison dynamique des graphiques est naturelle et efficace pour l'analyse exploratoire des données spatiales , ou ESDA . Les systèmes ESDA relient généralement une ou plusieurs cartes quantitatives (telles que des cartes choroplèthes ) à des vues tabulaires et des graphiques statistiques des données sous-jacentes. Certaines de ces capacités font partie de quelques systèmes SIG de bureau depuis environ 15 ans, en particulier ArcView 3 (un produit commercial abandonné). Le logiciel gratuit GeoDa offre certaines de ces capacités dans un environnement conçu pour l'exploration de données spatiales et l'analyse statistique. C'est maladroit, avec une interface idiosyncrasique et des graphismes non polis, mais assez exempt de bogues.

Cette utilisation de l'EDA contourne l'objection selon laquelle les tests statistiques peuvent être meilleurs que l'exploration interactive car dans de nombreuses situations (la plupart?) Il n'y a pas de modèle statistique clair, il n'y a pas de test statistique évident (ou même approprié), et le test d'hypothèse est souvent hors de propos: les gens doivent voir ce qui se produit , où cela se produit et observer les relations statistiques entre les variables dans un contexte spatial. Toutes les analyses de données ne sont pas, ou ne devraient même pas consister en des procédures formelles!

whuber
la source
Bonjour Whuber. Votre exemple d'ESDA est un excellent exemple, merci! Si vous (ou d'autres) pouvez suggérer d'autres exemples de cas où les procédures formelles sont moins pertinentes - ce serait très utile.
Tal Galili
7

Pour moi, la visualisation interactive n'est utile que pour ma propre exploration ou lorsque je travaille avec un client très pratique. Lorsque je traite d'une présentation finale, je préfère choisir le graphique statique qui correspond le mieux à mon argument. Sinon, les clients peuvent être totalement distraits par le facteur gee-whiz.

Le plus grand avantage que j'en retire est un niveau de vitesse qui me libère pour examiner bien plus que si j'arrêtais de programmer une solution. JMP est l'un de mes outils préférés pour cela car il intègre une grande partie de ce que je veux dans une seule interface. Je pense que la plupart des gens qui sont de bons programmeurs statistiques essaient quelque chose comme JMP (ou GGobi, etc.) pendant une période beaucoup trop courte pour vraiment devenir bon. JMP en particulier vous donnera l'impression que vous le connaissez en regardant simplement les menus. Cependant, travailler à travers le manuel est vraiment nécessaire pour découvrir toute sa puissance.

Vous avez cependant mentionné ma principale préoccupation concernant ce niveau de vitesse: vous vous retrouvez sans aucune idée de ce que signifient vos valeurs de p. En quelques minutes, vous pouvez examiner visuellement des centaines de relations. Faire des tests d'hypothèses, après tout, est totalement trompeur, mais je vois des gens le faire tout le temps.

Une caractéristique que j'aime dans GGobi est sa poursuite de projection, dans laquelle vous spécifiez le type de motif que vous recherchez dans un espace de grande dimension, puis vous vous asseyez et le regardez "poursuivre" cet objectif. Super truc!

user3155
la source
2
+1. La remarque sur les présentations finales rappelle, à titre de contre-exemple notable, la célèbre conférence TED de Hans Rosling en 2006 ( ted.com/talks/… ). Re: le point sur l'examen «beaucoup plus», je me rappelle comment un avocat dans une déposition m'a demandé comment j'avais examiné les données qui étayaient mon témoignage et comment son visage était tombé quand elle avait appris que le travail avait été fait de manière interactive et par conséquent, rien n'a été imprimé ou enregistré (qu'elle pourrait ensuite assigner à comparaître, examiner et essayer de contester). ;-)
whuber
JMP est l'une des plus belles applications de statistiques du marché. Les statisticiens devraient certainement apprendre à l'utiliser, ne serait-ce que pour impressionner leurs clients. C'est cher, mais bon marché si vous êtes étudiant ou membre du personnel d'une école / université / université
Neil McGuigan