Localisation des échantillons de données disponibles gratuitement

98

Je travaille sur une nouvelle méthode d'analyse et d'analyse de jeux de données pour identifier et isoler les sous-groupes d'une population sans connaître à l'avance les caractéristiques d'aucun sous-groupe. Bien que la méthode fonctionne assez bien avec des échantillons de données artificiels (c'est-à-dire des ensembles de données créés spécifiquement dans le but d'identifier et de séparer des sous-ensembles de la population), j'aimerais essayer de la tester avec des données réelles.

Ce que je recherche, c'est une source de données librement disponible (c'est-à-dire non confidentielle et non exclusive). De préférence, celui-ci contient des distributions bimodales ou multimodales ou est évidemment composé de plusieurs sous-ensembles qui ne peuvent pas être facilement séparés par des moyens traditionnels. Où pourrais-je aller pour trouver une telle information?

EAMann
la source
4
Vous pourriez aimer getthedata.org, un site de questions-réponses dédié à la recherche d’ensembles de données
Jeromy Anglim le

Réponses:

46

La liste suivante contient de nombreux ensembles de données susceptibles de vous intéresser:

Mehper C. Palavuzlar
la source
17

La Banque mondiale offre de nombreuses données intéressantes et a récemment été très active dans le développement de bonnes API .

En outre, le projet commun a une liste intéressante disponible.

Pour les données relatives à la santé aux États-Unis, pour Health Indicators Warehouse .

Le blog de Daniel Lemire points à quelques exemples intéressants ( la plupart du temps sur mesure à la recherche DB) , y compris Recensement du Canada 1880 et les rapports des nuages synoptiques .

Et pour aujourd'hui (03/04/2012), les archives du recensement américain de 1940 sont également disponibles au téléchargement.

radek
la source
2
La Banque mondiale fait un effort supplémentaire avec les données ouvertes et les cartes, pour Stata et R.
p.
13

Gapminder a un nombre (430 au dernier regard) de jeux de données, qui peuvent vous être utiles ou non.

Amos
la source
11

MLComp contient quelques jeux de données intéressants et, en prime, votre algorithme sera classé si vous le téléchargez.

jilles de wit
la source
10

Un bon endroit à regarder est la bibliothèque de données et d'histoires ou DASL de la Carnegie Mellon University , qui contient des fichiers de données qui "illustrent l'utilisation de méthodes statistiques de base ... Un bon exemple peut rendre une leçon sur une méthode de statistiques particulière vive et pertinente. DASL est conçu pour aider les enseignants à localiser et à identifier les fichiers de données à enseigner. Nous espérons que DASL servira également d'archive pour les ensembles de données de la littérature statistique. "

utilisateur211
la source
9

Démarrez R et tapez data(). Cela montrera tous les jeux de données dans le chemin de recherche. De nombreux jeux de données supplémentaires sont disponibles dans les packages complémentaires. Par exemple, le AERpaquet contient quelques jeux de données de sciences sociales du monde réel intéressants .

Jeromy Anglim
la source
5

Le réseau Stack Exchange dispose désormais d’un nouveau site, Open Data (version bêta du 5 mars 2015), dédié aux données. Il se décrit comme:

Open Data Stack Exchange est un site de questions-réponses destiné aux développeurs et aux chercheurs intéressés par les données ouvertes. Il est conçu et géré par vous dans le cadre du réseau de sites de questions-réponses Stack Exchange. Avec votre aide, nous travaillons ensemble pour créer une bibliothèque de réponses détaillées à toutes les questions relatives aux données ouvertes.

"Données ouvertes" fait référence à des ensembles de données qui sont "librement disponibles pour tout le monde, à utiliser et à republier à leur guise, sans restrictions du droit d'auteur, des brevets ou d'autres mécanismes de contrôle" ( Wikipedia ). Cependant, le site semble accepter les demandes d'ensembles de données fermés .

vitesse
la source
3

Ajouter un couple à la liste:

Tous deux disponibles via une API REST et ont des plans d'essai gratuits.

Eugene Osovetsky
la source
2

Les ensembles de données du livre séminal A handbook of small data setssont disponibles ici .

MYaseen208
la source
2

À la recherche d'un ensemble de données adapté à mes besoins, je viens de tomber sur deux sites pertinents pour la discussion.

Datacite.org qui se décrit comme ...

Nous sommes une organisation internationale qui vise à:

  • établir un accès plus facile aux données de recherche
  • accroître l'acceptation des données de recherche en tant que contributions légitimes dans le dossier scientifique, et
  • soutenir l'archivage des données afin de permettre la vérification des résultats et leur réutilisation pour une étude ultérieure.

DataBib.org qui se décrit comme ...

Databib est un outil destiné à aider les utilisateurs à identifier et à localiser des référentiels en ligne de données de recherche. Les utilisateurs et les bibliographes créent et organisent des enregistrements décrivant les référentiels de données dans lesquels les utilisateurs peuvent effectuer des recherches.

Je pense que cela vaudrait la peine de l’ajouter à la liste pour les autres.

Maintenant, trouver quelque chose dans ses liens qui correspond à mes besoins!

slackline
la source
2

Je recommande fortement de vérifier quandl.com . C'est un rêve de programmeurs de données. Il fournit une API très facile pour accéder à l’un des 10 millions de postes de données différents. Vous recherchez des données bi-modiales ou multivariées, je suggérerais donc de vérifier les différents ensembles de données sur la population, par exemple, ce graphique de la population mondiale contient les pays et territoires sous-composants qui entrent dans le total.

Brian Risk
la source
1
Certaines données sont gratuites, certaines "Premium", c’est-à-dire qu’elles coûtent $$. De plus, mon rêve en matière d’API comprend des séries chronologiques, des règles et des tracés en ligne (je veux un poney).
denis
1

Utilisation dans le temps

Une très grande feuille de calcul Excel disponible au téléchargement contenant des points de données pour toutes les activités en ligne, avec la démographie des utilisateurs, au fil du temps. Veuillez lire la fiche de conseils (ci-dessous) avant de télécharger ou d’utiliser cette feuille de calcul.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Tal Galili
la source