Je travaille sur une nouvelle méthode d'analyse et d'analyse de jeux de données pour identifier et isoler les sous-groupes d'une population sans connaître à l'avance les caractéristiques d'aucun sous-groupe. Bien que la méthode fonctionne assez bien avec des échantillons de données artificiels (c'est-à-dire des ensembles de données créés spécifiquement dans le but d'identifier et de séparer des sous-ensembles de la population), j'aimerais essayer de la tester avec des données réelles.
Ce que je recherche, c'est une source de données librement disponible (c'est-à-dire non confidentielle et non exclusive). De préférence, celui-ci contient des distributions bimodales ou multimodales ou est évidemment composé de plusieurs sous-ensembles qui ne peuvent pas être facilement séparés par des moyens traditionnels. Où pourrais-je aller pour trouver une telle information?
la source
Réponses:
Voir également le référentiel de données d’apprentissage de la machine UCI.
http://archive.ics.uci.edu/ml/
la source
La liste suivante contient de nombreux ensembles de données susceptibles de vous intéresser:
la source
Voir ma réponse à "Jeux de données pour l'exécution d'une analyse statistique sur" en référence à des jeux de données dans R.
la source
La Banque mondiale offre de nombreuses données intéressantes et a récemment été très active dans le développement de bonnes API .
En outre, le projet commun a une liste intéressante disponible.
Pour les données relatives à la santé aux États-Unis, pour Health Indicators Warehouse .
Le blog de Daniel Lemire points à quelques exemples intéressants ( la plupart du temps sur mesure à la recherche DB) , y compris Recensement du Canada 1880 et les rapports des nuages synoptiques .
Et pour aujourd'hui (03/04/2012), les archives du recensement américain de 1940 sont également disponibles au téléchargement.
la source
Gapminder a un nombre (430 au dernier regard) de jeux de données, qui peuvent vous être utiles ou non.
la source
MLComp contient quelques jeux de données intéressants et, en prime, votre algorithme sera classé si vous le téléchargez.
la source
Un bon endroit à regarder est la bibliothèque de données et d'histoires ou DASL de la Carnegie Mellon University , qui contient des fichiers de données qui "illustrent l'utilisation de méthodes statistiques de base ... Un bon exemple peut rendre une leçon sur une méthode de statistiques particulière vive et pertinente. DASL est conçu pour aider les enseignants à localiser et à identifier les fichiers de données à enseigner. Nous espérons que DASL servira également d'archive pour les ensembles de données de la littérature statistique. "
la source
Démarrez R et tapez
data()
. Cela montrera tous les jeux de données dans le chemin de recherche. De nombreux jeux de données supplémentaires sont disponibles dans les packages complémentaires. Par exemple, leAER
paquet contient quelques jeux de données de sciences sociales du monde réel intéressants .la source
NIST fournit une archive de jeu de données de référence .
la source
http://www.reddit.com/r/datasets et http://www.reddit.com/r/opendata contiennent tous deux une liste de plus en plus importante de pointeurs vers différents jeux de données.
la source
Le réseau Stack Exchange dispose désormais d’un nouveau site, Open Data (version bêta du 5 mars 2015), dédié aux données. Il se décrit comme:
"Données ouvertes" fait référence à des ensembles de données qui sont "librement disponibles pour tout le monde, à utiliser et à republier à leur guise, sans restrictions du droit d'auteur, des brevets ou d'autres mécanismes de contrôle" ( Wikipedia ). Cependant, le site semble accepter les demandes d'ensembles de données fermés .
la source
Timetric fournit une interface Web pour les données et fournit une liste des jeux de données accessibles au public qu'ils utilisent
la source
Ajouter un couple à la liste:
Beaucoup de données financières détaillées sur les sociétés cotées en bourse, remontant à plusieurs décennies: http://www.mergent.com/servius
Informations détaillées sur plus de 16 millions d'entreprises américaines: http://compass.webservius.com
Tous deux disponibles via une API REST et ont des plans d'essai gratuits.
la source
Voici une autre liste .
la source
C’est probablement la liste la plus complète que vous trouverez: Quelques jeux de données disponibles sur le Web
la source
Peter Skomoroch tient à jour une liste de jeux de données à l’ adresse http://www.datawrangling.com/some-datasets-available-on-the-web . La plupart des liens fournis concernant les lieux répertoriant les jeux de données.
la source
Les ensembles de données du livre séminal
A handbook of small data sets
sont disponibles ici .la source
À la recherche d'un ensemble de données adapté à mes besoins, je viens de tomber sur deux sites pertinents pour la discussion.
Datacite.org qui se décrit comme ...
DataBib.org qui se décrit comme ...
Je pense que cela vaudrait la peine de l’ajouter à la liste pour les autres.
Maintenant, trouver quelque chose dans ses liens qui correspond à mes besoins!
la source
Je recommande fortement de vérifier quandl.com . C'est un rêve de programmeurs de données. Il fournit une API très facile pour accéder à l’un des 10 millions de postes de données différents. Vous recherchez des données bi-modiales ou multivariées, je suggérerais donc de vérifier les différents ensembles de données sur la population, par exemple, ce graphique de la population mondiale contient les pays et territoires sous-composants qui entrent dans le total.
la source
la source
Utilisation dans le temps
Une très grande feuille de calcul Excel disponible au téléchargement contenant des points de données pour toutes les activités en ligne, avec la démographie des utilisateurs, au fil du temps. Veuillez lire la fiche de conseils (ci-dessous) avant de télécharger ou d’utiliser cette feuille de calcul.
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
la source
http://www.ckan.net contient également un certain nombre de jeux de données.
http://www.biotorrents.net/browse.php commence également à avoir une assez grande quantité de jeux de données BIG.
la source
SODA POP à Penn State;
http://sodapop.pop.psu.edu/
Archive de données en ligne simple pour les études de population.
la source
Je vais aller de l'avant et aborder un vieux sujet parce que je viens de trouver ce filon de mère:
http://vincentarelbundock.github.io/Rdatasets/
la source
Singapour annonce une initiative sur les données ouvertes . Découvrez data.gov.sg similaire à data.gov aux États-Unis.
la source