Je recherche des ensembles de données existants que nous pouvons utiliser pour tester plusieurs techniques de datavis que nous recherchons.
Je connais plusieurs ressources comme celles incluses dans R (essayez plot(Orange)
ou voyez ici ).
Mais je voudrais faire un pas en avant:
- Quels sont les meilleurs ensembles de données du monde réel pour tester un outil de visualisation?
- Quels jeux de données avez-vous utilisés dans des articles universitaires ou des diapositives pédagogiques sur datavis?
- Quel est le meilleur exemple du monde réel pour montrer les avantages de la représentation graphique?
data-visualization
dataset
teaching
robermorales
la source
la source
Réponses:
Il existe un grand nombre de bases de données disponibles sur Internet. Selon le sujet, vous pouvez obtenir différentes sources.
Par exemple, dans le domaine du développement humain, vous pouvez avoir des sources de données sur (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Pour l'observation du changement climatique, il existe un site Web avec des données climatiques à haute résolution sur (http://www.ipcc-data.org/), par exemple:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Les deux exemples contiennent des données réelles, utilisées dans des articles scientifiques publiés, avec une grande quantité de données. Données temporelles et / ou spatiales. Les possibilités de visualisation de ces données sont infinies.
la source
J'aime utiliser les ensembles de données d' Anscombe (également disponibles dans R) pour montrer l'importance du traçage lors des régressions. Si vous n'êtes pas familier, vous obtenez la même ligne de régression et les mêmes diagnostics des quatre ensembles de données, même si les ensembles eux-mêmes semblent tous très différents. Vous pouvez prendre les tracés ci-dessous et les transformer en tracés résiduels pour illustrer les problèmes que vous pourriez rechercher dans les résidus après avoir effectué une régression.
la source
Toute grande table. Pour des exemples, google images de "table de recensement officielle". Vous verrez des choses comme celle ci-dessous .
Regardez également Gelman et al. (2002) Pratiquons ce que nous prêchons: transformer des tableaux en graphiques. Statisticien américain 56: 121-130
la source
William S. Cleveland a deux livres pleins d'excellentes utilisations des graphiques, et les données et le code pour créer les graphiques dans Visualizing Data sont sur son site Web
la source
Vous les connaissez peut-être déjà, mais les voici quand même:
L' apprentissage automatique UCI Repositor y a de nombreux ensembles de données du monde réel, accessibles au public.
Le gouvernement américain rend public un grand nombre de ses ensembles de données sur data.gov .
Si vous voulez des données de visualisation délicates, je vous suggère de regarder une tâche de classification. Il me semble que le sac de mots placé sur l'UCI MLR a de belles propriétés, mais je peux me tromper (cela fait un moment que je ne l'ai pas utilisé).
la source
Voici quelques-uns.
Exemples de jeux de données de l' outil Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Datasets
Exemples de jeux de données fournis avec Sci2 Tool.
Exemples d'ensembles de données Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Exemples d'ensembles de données pour démarrer avec Tableau.
Awesome Public Datasets
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Cette liste de sources de données publiques est collectée et rangée sur les blogs, les réponses et les réponses des utilisateurs. La plupart des ensembles de données sont gratuits, certains ne le sont pas.
Ce fil est plutôt ancien, en espérant que cette bosse recevra de nouvelles contributions!
la source
Je viens de remarquer des tas de jeux de données ici:
http://www.inside-r.org/howto/finding-data-internet
Je ne sais pas si c'est utile?
J'ai peur de ne pas enseigner la visualisation, je ne peux donc pas commenter vos questions spécifiques.
la source