Ensembles de données pour des exemples de visualisation de données, l'enseignement et la recherche

9

Je recherche des ensembles de données existants que nous pouvons utiliser pour tester plusieurs techniques de datavis que nous recherchons.

Je connais plusieurs ressources comme celles incluses dans R (essayez plot(Orange)ou voyez ici ).

Mais je voudrais faire un pas en avant:

  • Quels sont les meilleurs ensembles de données du monde réel pour tester un outil de visualisation?
  • Quels jeux de données avez-vous utilisés dans des articles universitaires ou des diapositives pédagogiques sur datavis?
  • Quel est le meilleur exemple du monde réel pour montrer les avantages de la représentation graphique?
robermorales
la source
2
Beaucoup de bons exemples du monde réel, avec certains des projets liés fournissant les ensembles de données (mais la plupart ne le font malheureusement pas): infosthetics.com
WSkid
1
Recherchez-vous expressément des ensembles de données gratuits ?
Fomite
3
La visualisation dépend du contexte et du public (entre autres), ce qui suggère que le «meilleur» est ambigu dans ce contexte. Vous pouvez obtenir des réponses plus ciblées et pertinentes en indiquant les "techniques" que vous recherchez.
whuber
1
@whuber Techniques, sur l'automatisation de la visualisation. Mieux, pour expliquer. Meilleur, pour référence.
robermorales
@EpiGrad Oui, aussi gratuit que possible.
robermorales

Réponses:

5

Il existe un grand nombre de bases de données disponibles sur Internet. Selon le sujet, vous pouvez obtenir différentes sources.

Par exemple, dans le domaine du développement humain, vous pouvez avoir des sources de données sur (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Pour l'observation du changement climatique, il existe un site Web avec des données climatiques à haute résolution sur (http://www.ipcc-data.org/), par exemple:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Les deux exemples contiennent des données réelles, utilisées dans des articles scientifiques publiés, avec une grande quantité de données. Données temporelles et / ou spatiales. Les possibilités de visualisation de ces données sont infinies.

Jose Zubcoff
la source
lequel des jeux de données possibles de ces magnifiques sources préférez-vous? merci
robermorales
1
Cela dépend de l'aptitude au «goût» de la visualisation. Par exemple, pour explorer / montrer des séries chronologiques, le site Web du GIEC a suffisamment de données et est largement utilisé (évidemment pour analyser le changement climatique), pour afficher des données spatiales, le site Web du développement humain contient beaucoup de données spatiales ainsi que des données liées à temps.
Jose Zubcoff
Votre premier lien est rompu (erreur DNS).
horaceT
Malheureusement, le premier lien est rompu (5 ans plus tard), mais il existe de nombreuses données ouvertes: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/en/data
Jose Zubcoff
9

J'aime utiliser les ensembles de données d' Anscombe (également disponibles dans R) pour montrer l'importance du traçage lors des régressions. Si vous n'êtes pas familier, vous obtenez la même ligne de régression et les mêmes diagnostics des quatre ensembles de données, même si les ensembles eux-mêmes semblent tous très différents. Vous pouvez prendre les tracés ci-dessous et les transformer en tracés résiduels pour illustrer les problèmes que vous pourriez rechercher dans les résidus après avoir effectué une régression.

Ensembles de données Anscombe

Charlie
la source
Oui, nous connaissions ces ensembles de données. C'est un bon point de départ.
robermorales
Le principal problème est qu'il ne s'agit pas d'un ensemble de données du monde réel.
robermorales
3
@robermorales, Très bien, mais je pense que voir la version "pure" du problème facilite la compréhension des visualisations / problèmes du monde réel.
Charlie
4

William S. Cleveland a deux livres pleins d'excellentes utilisations des graphiques, et les données et le code pour créer les graphiques dans Visualizing Data sont sur son site Web

Peter Flom
la source
lequel des jeux de données de Cleveland aimez-vous le plus? merci
robermorales
1
@robertomorales Je pense qu'ils sont tous bien choisis pour leurs objectifs. Toute personne intéressée par les graphiques statistiques doit étudier attentivement Cleveland.
Peter Flom
1
Les données pour la visualisation des données peuvent être trouvées sur lib.stat.cmu.edu/datasets/visualizing.data.zip Je ne peux plus les trouver sur le propre site Web de Cleveland.
Nick Cox
4

Vous les connaissez peut-être déjà, mais les voici quand même:

L' apprentissage automatique UCI Repositor y a de nombreux ensembles de données du monde réel, accessibles au public.

Le gouvernement américain rend public un grand nombre de ses ensembles de données sur data.gov .

Si vous voulez des données de visualisation délicates, je vous suggère de regarder une tâche de classification. Il me semble que le sac de mots placé sur l'UCI MLR a de belles propriétés, mais je peux me tromper (cela fait un moment que je ne l'ai pas utilisé).

John Doucette
la source
Merci! Il y en a beaucoup !
robermorales
3

Voici quelques-uns.

Exemples de jeux de données de l' outil Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Exemples de jeux de données fournis avec Sci2 Tool.

Exemples d'ensembles de données Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Exemples d'ensembles de données pour démarrer avec Tableau.

Awesome Public Datasets
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Cette liste de sources de données publiques est collectée et rangée sur les blogs, les réponses et les réponses des utilisateurs. La plupart des ensembles de données sont gratuits, certains ne le sont pas.

Ce fil est plutôt ancien, en espérant que cette bosse recevra de nouvelles contributions!

Mike Nutt
la source