L'un des problèmes courants de la science des données est la collecte de données provenant de diverses sources dans un format (semi-structuré) en quelque sorte nettoyé et la combinaison de métriques provenant de différentes sources pour effectuer une analyse de niveau supérieur. En regardant les efforts des autres, en particulier les autres questions sur ce site, il apparaît que beaucoup de personnes dans ce domaine font un travail quelque peu répétitif. Par exemple, analyser des tweets, des publications sur Facebook, des articles de Wikipédia, etc. fait partie de nombreux problèmes liés au Big Data.
Certains de ces ensembles de données sont accessibles à l'aide des API publiques fournies par le site du fournisseur, mais généralement, certaines informations ou métriques précieuses sont absentes de ces API et tout le monde doit refaire et refaire les mêmes analyses. Par exemple, même si la mise en cluster des utilisateurs peut dépendre de différents cas d'utilisation et de la sélection de fonctionnalités, la mise en cluster d'utilisateurs de Twitter / Facebook peut être utile dans de nombreuses applications Big Data, qui n'est ni fournie par l'API ni disponible publiquement dans des ensembles de données indépendants. .
Existe-t-il un index ou un site d'hébergement de données accessible au public contenant des ensembles de données utiles pouvant être réutilisés pour résoudre d'autres problèmes de Big Data? Je veux dire quelque chose comme GitHub (ou un groupe de sites / ensembles de données publics ou au moins une liste complète) pour la science des données. Sinon, quelles sont les raisons pour ne pas avoir une telle plate-forme pour la science des données? La valeur commerciale des données, nécessité de mettre à jour fréquemment des ensembles de données, ...? Ne pouvons-nous pas avoir un modèle open source pour partager des ensembles de données conçus pour les scientifiques des données?
la source
Réponses:
Il existe en fait une liste très raisonnable d'ensembles de données accessibles au public, pris en charge par différentes entreprises / sources.
Certains d'entre eux sont ci-dessous:
Maintenant, deux considérations sur votre question. Le premier concerne les politiques de partage de bases de données. D'après l'expérience personnelle, certaines bases de données ne peuvent pas être rendues publiques, que ce soit pour imposer des restrictions à la confidentialité (comme pour certaines informations de réseaux sociaux) ou concernant des informations gouvernementales (comme les bases de données du système de santé).
Un autre point concerne l'utilisation / l'application de l'ensemble de données. Bien que certaines bases puissent être retraitées pour répondre aux besoins de l'application, il serait bon de disposer d'une belle organisation des jeux de données par objectif. La taxonomie devrait comprendre une analyse de graphe social, une extraction d'éléments, une classification et de nombreux autres domaines de recherche.
la source
Mise à jour:
Kaggle.com , un foyer de passionnés modernes de science des données et d'apprentissage automatique :), a ouvert son propre référentiel de jeux de données .
En plus des sources énumérées.
Quelques ensembles de données de réseaux sociaux:
Stats SE contient de nombreuses sources:
la source
Il existe de nombreux ensembles de données disponibles, l'un des plus souvent ignoré, c'est data.gov . Comme mentionné précédemment, Freebase est génial, de même que tous les exemples publiés par @Rubens
la source
Freebase est une base de données gratuite axée sur la communauté qui couvre de nombreux sujets intéressants et contient environ 2,5 milliards de faits dans un format lisible par machine. Il est également bon d'avoir une API pour effectuer des requêtes de données.
Voici une autre liste compilée d'ensembles de données ouvertes: http://www.datapure.co/open-data-sets
la source
Les liens suivants sont disponibles
Ensembles de données publiques
Google Public Data Sets
Services Web Amazon
Recherche de données sur Internet
la source
Quandl est en particulier une excellente ressource pour les données de séries chronologiques - un répertoire facile à parcourir des séries chronologiques (principalement) propres.
L'une des fonctionnalités les plus intéressantes est le prix des actions à données ouvertes, c'est-à -dire des données financières pouvant être éditées à la manière d'un wiki et ne faisant pas l'objet de licences.
la source
Enigma est un référentiel de jeux de données disponibles au public. Son forfait gratuit propose une recherche de données publique, avec 10 000 appels d'API par mois. Toutes les bases de données publiques ne sont pas répertoriées, mais la liste est suffisante pour les cas courants.
Je l'ai utilisé pour la recherche universitaire et cela m'a fait gagner beaucoup de temps.
Une autre source de données intéressante est le projet @unitedstates , qui contient des données et des outils pour les collecter, sur les États-Unis (membres du Congrès, formes géographiques, etc.).
la source
Je voudrais signaler le recensement de données ouvertes . Il s'agit d'une initiative de l'Open Knowledge Knowledge basée sur les contributions de défenseurs de l'open data et d'experts du monde entier.
Open Data Census est un effort ouvert, mené par la communauté et systématique pour collecter et mettre à jour la base de données des jeux de données ouverts globalement par pays et, dans certains cas, comme aux États-Unis, au niveau des villes .
En outre, il offre l’occasion de comparer différents pays et villes sur des domaines d’intérêt sélectionnés.
la source
The Guardian, le British Daily, fournit une autre ressource sur son site Web. Les jeux de données publiés par Guardian Datablog sont tous hébergés. Jeux de données liés aux comptes des clubs de football de la Premier League, détails sur l'inflation et le PIB du Royaume-Uni, données sur les prix Grammy, etc. Les jeux de données sont disponibles à l'adresse
Quelques ressources supplémentaires. Certains des jeux de données sont au format R ou il existe des commandes R pour importer directement des données dans R.
la source
Recherche Google personnalisée
Vous pouvez utiliser la recherche Google personnalisée pour les ensembles de données:
Google Custom Search: Jeux de données
Il comprend 230 sources et méta-sources de jeux de données, y compris toutes celles mentionnées dans cette question. N'hésitez pas à exclure .gov et tout autre site Web des résultats en ajoutant "-.gov" ou "-site.com" à la ligne de recherche. Les autres opérateurs de recherche Google travaillent.
N'hésitez pas à me contacter si vous avez des idées sur les sites Web à ajouter.
IOGDS
Le service suivant catégorise plus de 1 000 000 jeux de données publics:
IOGDS: recherche dans le jeu de données sur le gouvernement ouvert international
la source
Réponse tardive, mais voici une liste éclectique de plus de 100 ensembles de données intéressants
Le blog est amusant et facile à lire (je n’ai aucune affiliation). Cela vaut la peine de parcourir et d'en extraire quelques-uns:
Derniers mots de chaque détenu texan exécuté depuis 1984
10 000 images annotées de chats
2,2 millions de parties d'échecs
la source
J'ai trouvé ce lien dans Data Science Central avec une liste d'ensembles de données gratuits: Grands ensembles de données disponibles gratuitement
la source
Saviez-vous que les tests d'évaluation de PUMA et les téléchargements de jeux de données? https://sites.google.com/site/farazahmad/pumadatasets
Il comprend les éléments suivants:
la source
Le gouvernement britannique fournit une excellente source de données non personnelles collectées dans tous les ministères: http://data.gov.uk
la source
Je suis nouveau sur ce forum. Je suis en retard sur cette question. Je tiens (je suis un co-fondateur de) un catalogue de portails de données accessibles au public. Il y a plus de 1000 portails actuellement répertoriés sur la liste et couvrant des portails aux niveaux international, fédéral, étatique, municipal et universitaire.
http://www.opengeocode.org/opendata/
la source
Je suis surpris qu'on ne l'ait pas mentionné, car cela semble assez évident: http://www.kaggle.com a toujours de nouveaux jeux de données très intéressants. Les informations étant considérées comme un atout, les entreprises ne souhaitent souvent pas divulguer ces données (en plus des problèmes de confidentialité). Kaggle vous fournit des données et espère que vous résoudrez les problèmes de votre entreprise en échange.
la source
Ensembles de données
Les ensembles de données De super-science des données
la source
Comme vous l'avez mentionné, l'API est la partie la plus difficile, pas les données. Quandl semble résoudre ce problème en fournissant plus de 10 millions d'ensembles de données accessibles au public sous une API simple et conviviale, RESTful. Si la programmation n’est pas votre point fort, il existe un outil gratuit pour faciliter le chargement de données dans Excel. De plus, si vous faites profiter de la programmation, il y a plusieurs bibliothèques natives dans R, Python, Java et plus .
la source
Pour ajouter à une liste éventuellement sans fin:
comme mentionné par cyndd, il y a Wikidata ,
et pour la connaissance structurée organisée, Wolfram Alpha .
la source
Je suis tombé sur cette collection sur Github. La collection est également classée.
https://github.com/caesar0301/awesome-public-datasets
Et pour la partie concernant
vous pouvez consulter le guide du groupe Leek sur le partage des données
la source
Data.gov ne répertorie pas toutes les données gouvernementales. En février, la Sunlight Foundation a créé un ensemble de feuilles de calcul décrivant les ensembles de données disponibles.
la source
Le projet GDELT est une autre source de données que je n'ai pas vue énumérée . Du site:
la source
Ce sous-répertoire répertorie un grand nombre de jeux de données connus.
Reddit Datasets
Il existe de nombreuses demandes de jeux de données sur ce sous-répertoire, dont plusieurs ont reçu une réponse.
la source
J'ai créé un repo github pour cela. Les jeux de données ne sont pas volumineux, mais constituent des exemples minimaux destinés à la pratique et à l’exploration de techniques de modélisation prédictive qui peuvent ensuite être étendues à de grands jeux de données.
Bible d'apprentissage problème machine (MLPB)
La particularité de ce référentiel est que chaque problème est étiqueté avec des balises telles que [multi-classe], [données non équilibrées], [régression], etc., ce qui facilite la recherche de certains types de problèmes / ensembles de données.
la source
Eurostats http://ec.europa.eu/eurostat et la Banque centrale européenne https://www.ecb.europa.eu/stats/html/index.en.html fournissent une grande variété de jeux de données que j'utilise assez souvent dans mes projets de travail.
la source
Outre tous ces jeux de données, si vous êtes intéressé par des données relatives à l'Inde. Le site public officiel du gouvernement indien est
Il fournit des ensembles de données provenant de différents départements du gouvernement indien qui peuvent être bien utilisés pour l'analyse de données volumineuses et l'apprentissage automatique.
la source
Yahoo vient de publier un énorme ensemble de données pour la recherche. Profitez-en!
la source
Juste en chargeant le paquet MASS dans R, nous avons accès à plusieurs images ou ensembles de données.
install.packages ("MASS") require ("MASS")
la source
3 jeux de données de https://www.jc-bingo.com/about
la source
De toute évidence, il existe un grand nombre de bases de données publiques.
L’une d’entre elles, pas encore mentionnée, est fournie par la FAO (Organisation des Nations Unies pour l’ alimentation et l’agriculture), accessible à l’adresse suivante:
http://www.fao.org/faostat/
Il contient des données sur la production alimentaire pour les pays du monde entier.
la source