Jeux de données disponibles publiquement

168

L'un des problèmes courants de la science des données est la collecte de données provenant de diverses sources dans un format (semi-structuré) en quelque sorte nettoyé et la combinaison de métriques provenant de différentes sources pour effectuer une analyse de niveau supérieur. En regardant les efforts des autres, en particulier les autres questions sur ce site, il apparaît que beaucoup de personnes dans ce domaine font un travail quelque peu répétitif. Par exemple, analyser des tweets, des publications sur Facebook, des articles de Wikipédia, etc. fait partie de nombreux problèmes liés au Big Data.

Certains de ces ensembles de données sont accessibles à l'aide des API publiques fournies par le site du fournisseur, mais généralement, certaines informations ou métriques précieuses sont absentes de ces API et tout le monde doit refaire et refaire les mêmes analyses. Par exemple, même si la mise en cluster des utilisateurs peut dépendre de différents cas d'utilisation et de la sélection de fonctionnalités, la mise en cluster d'utilisateurs de Twitter / Facebook peut être utile dans de nombreuses applications Big Data, qui n'est ni fournie par l'API ni disponible publiquement dans des ensembles de données indépendants. .

Existe-t-il un index ou un site d'hébergement de données accessible au public contenant des ensembles de données utiles pouvant être réutilisés pour résoudre d'autres problèmes de Big Data? Je veux dire quelque chose comme GitHub (ou un groupe de sites / ensembles de données publics ou au moins une liste complète) pour la science des données. Sinon, quelles sont les raisons pour ne pas avoir une telle plate-forme pour la science des données? La valeur commerciale des données, nécessité de mettre à jour fréquemment des ensembles de données, ...? Ne pouvons-nous pas avoir un modèle open source pour partager des ensembles de données conçus pour les scientifiques des données?

Amir Ali Akbari
la source
18
Cette question pourrait être plus appropriée sur l' opendata.SE dédié . Cela dit, je croise les doigts pour la dat , qui aspire à devenir un "Git for data".
ojdo
2
@ojdo Merci, je n'avais jamais entendu parler d'opendata.SE auparavant, j'ai aussi trouvé cette question intéressante (et très similaire).
Amir Ali Akbari,
Je n'ai trouvé aucun bon jeu de données complet gratuit pour les applications de Business Intelligence typiques. La base de données Microsoft Contoso BI Demo pour le commerce de détail du téléchargement officiel du Centre de téléchargement Microsoft fonctionne avec certains produits Microsoft (voir AndyGett sur SharePoint et autres logiciels d'entreprise ), mais je ne vois pas de dumps SQL ou csv, ni d'informations de licence. .
nealmcb
1
Avez-vous rejoint Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Réponses:

88

Il existe en fait une liste très raisonnable d'ensembles de données accessibles au public, pris en charge par différentes entreprises / sources.

Certains d'entre eux sont ci-dessous:

Maintenant, deux considérations sur votre question. Le premier concerne les politiques de partage de bases de données. D'après l'expérience personnelle, certaines bases de données ne peuvent pas être rendues publiques, que ce soit pour imposer des restrictions à la confidentialité (comme pour certaines informations de réseaux sociaux) ou concernant des informations gouvernementales (comme les bases de données du système de santé).

Un autre point concerne l'utilisation / l'application de l'ensemble de données. Bien que certaines bases puissent être retraitées pour répondre aux besoins de l'application, il serait bon de disposer d'une belle organisation des jeux de données par objectif. La taxonomie devrait comprendre une analyse de graphe social, une extraction d'éléments, une classification et de nombreux autres domaines de recherche.

Rubens
la source
64

Mise à jour:

Kaggle.com , un foyer de passionnés modernes de science des données et d'apprentissage automatique :), a ouvert son propre référentiel de jeux de données .


En plus des sources énumérées.

Quelques ensembles de données de réseaux sociaux:

Stats SE contient de nombreuses sources:

IharS
la source
37

Il existe de nombreux ensembles de données disponibles, l'un des plus souvent ignoré, c'est data.gov . Comme mentionné précédemment, Freebase est génial, de même que tous les exemples publiés par @Rubens

MCP_infiltrator
la source
35

Freebase est une base de données gratuite axée sur la communauté qui couvre de nombreux sujets intéressants et contient environ 2,5 milliards de faits dans un format lisible par machine. Il est également bon d'avoir une API pour effectuer des requêtes de données.

Voici une autre liste compilée d'ensembles de données ouvertes: http://www.datapure.co/open-data-sets

Konstantin V. Salikhov
la source
Freebase ferme ses portes et sa base de données sera bientôt transférée sur Wikidata .
Cynddl
25

Quandl est en particulier une excellente ressource pour les données de séries chronologiques - un répertoire facile à parcourir des séries chronologiques (principalement) propres.

L'une des fonctionnalités les plus intéressantes est le prix des actions à données ouvertes, c'est-à -dire des données financières pouvant être éditées à la manière d'un wiki et ne faisant pas l'objet de licences.

azza-bazoo
la source
20

Enigma est un référentiel de jeux de données disponibles au public. Son forfait gratuit propose une recherche de données publique, avec 10 000 appels d'API par mois. Toutes les bases de données publiques ne sont pas répertoriées, mais la liste est suffisante pour les cas courants.

Je l'ai utilisé pour la recherche universitaire et cela m'a fait gagner beaucoup de temps.


Une autre source de données intéressante est le projet @unitedstates , qui contient des données et des outils pour les collecter, sur les États-Unis (membres du Congrès, formes géographiques, etc.).

cynddl
la source
18

Je voudrais signaler le recensement de données ouvertes . Il s'agit d'une initiative de l'Open Knowledge Knowledge basée sur les contributions de défenseurs de l'open data et d'experts du monde entier.

Open Data Census est un effort ouvert, mené par la communauté et systématique pour collecter et mettre à jour la base de données des jeux de données ouverts globalement par pays et, dans certains cas, comme aux États-Unis, au niveau des villes .

En outre, il offre l’occasion de comparer différents pays et villes sur des domaines d’intérêt sélectionnés.

tomaskazemekas
la source
18

The Guardian, le British Daily, fournit une autre ressource sur son site Web. Les jeux de données publiés par Guardian Datablog sont tous hébergés. Jeux de données liés aux comptes des clubs de football de la Premier League, détails sur l'inflation et le PIB du Royaume-Uni, données sur les prix Grammy, etc. Les jeux de données sont disponibles à l'adresse

Quelques ressources supplémentaires. Certains des jeux de données sont au format R ou il existe des commandes R pour importer directement des données dans R.

binga
la source
17

Recherche Google personnalisée

Vous pouvez utiliser la recherche Google personnalisée pour les ensembles de données:

Google Custom Search: Jeux de données

Il comprend 230 sources et méta-sources de jeux de données, y compris toutes celles mentionnées dans cette question. N'hésitez pas à exclure .gov et tout autre site Web des résultats en ajoutant "-.gov" ou "-site.com" à la ligne de recherche. Les autres opérateurs de recherche Google travaillent.

N'hésitez pas à me contacter si vous avez des idées sur les sites Web à ajouter.

IOGDS

Le service suivant catégorise plus de 1 000 000 jeux de données publics:

IOGDS: recherche dans le jeu de données sur le gouvernement ouvert international

Anton Tarasenko
la source
Quels sont les paramètres du lien de recherche personnalisé que vous avez fourni? Est-ce qu'il cherche dans une liste de sites Web, mots-clés, etc.?
Amir Ali Akbari
@AmirAliAkbari Il effectue une recherche dans des sources telles que Data.gov, Quandl et d'autres grands entrepôts de données.
Anton Tarasenko
16

Réponse tardive, mais voici une liste éclectique de plus de 100 ensembles de données intéressants

Le blog est amusant et facile à lire (je n’ai aucune affiliation). Cela vaut la peine de parcourir et d'en extraire quelques-uns:

  • Derniers mots de chaque détenu texan exécuté depuis 1984

  • 10 000 images annotées de chats

  • 2,2 millions de parties d'échecs

Philshem
la source
15

Saviez-vous que les tests d'évaluation de PUMA et les téléchargements de jeux de données? https://sites.google.com/site/farazahmad/pumadatasets

Il comprend les éléments suivants:

  1. TeraSort
  2. Wikipédia
  3. Élément de liste
  4. Auto-rejoindre
  5. Liste de proximité
  6. Films-base de données
  7. Index-inversé-classé
Algarecu
la source
15

Le gouvernement britannique fournit une excellente source de données non personnelles collectées dans tous les ministères: http://data.gov.uk

Federer
la source
14

Je suis nouveau sur ce forum. Je suis en retard sur cette question. Je tiens (je suis un co-fondateur de) un catalogue de portails de données accessibles au public. Il y a plus de 1000 portails actuellement répertoriés sur la liste et couvrant des portails aux niveaux international, fédéral, étatique, municipal et universitaire.

http://www.opengeocode.org/opendata/

Andrew - OpenGeoCode
la source
14

Je suis surpris qu'on ne l'ait pas mentionné, car cela semble assez évident: http://www.kaggle.com a toujours de nouveaux jeux de données très intéressants. Les informations étant considérées comme un atout, les entreprises ne souhaitent souvent pas divulguer ces données (en plus des problèmes de confidentialité). Kaggle vous fournit des données et espère que vous résoudrez les problèmes de votre entreprise en échange.

RAM
la source
14

Ensembles de données

Les ensembles de données De super-science des données

chenrui333
la source
1
Pouvez-vous nous fournir des informations sur les deux ensembles de données / liens? Cela allégera effectivement le fardeau de ceux qui recherchent des types spécifiques d’ensembles de données. Jetez un coup d'œil à d'autres publications pour voir quel type d'informations vos références manquent.
Rubens
11

Comme vous l'avez mentionné, l'API est la partie la plus difficile, pas les données. Quandl semble résoudre ce problème en fournissant plus de 10 millions d'ensembles de données accessibles au public sous une API simple et conviviale, RESTful. Si la programmation n’est pas votre point fort, il existe un outil gratuit pour faciliter le chargement de données dans Excel. De plus, si vous faites profiter de la programmation, il y a plusieurs bibliothèques natives dans R, Python, Java et plus .

Brian Risk
la source
11

Pour ajouter à une liste éventuellement sans fin:

comme mentionné par cyndd, il y a Wikidata ,

et pour la connaissance structurée organisée, Wolfram Alpha .

image_doctor
la source
9

Le projet GDELT est une autre source de données que je n'ai pas vue énumérée . Du site:

Le projet GDELT surveille les actualités mondiales diffusées, imprimées et en ligne dans presque 100 pays, dans plus de 100 langues et identifie les personnes, les lieux, les organisations, les comptes, les thèmes, les sources et les événements qui animent notre société mondiale chaque seconde de chaque jour. créer une plateforme libre et ouverte pour l'informatique sur le monde entier.

dvdnglnd
la source
8

Ce sous-répertoire répertorie un grand nombre de jeux de données connus.

Reddit Datasets

Il existe de nombreuses demandes de jeux de données sur ce sous-répertoire, dont plusieurs ont reçu une réponse.

Un gars
la source
6

J'ai créé un repo github pour cela. Les jeux de données ne sont pas volumineux, mais constituent des exemples minimaux destinés à la pratique et à l’exploration de techniques de modélisation prédictive qui peuvent ensuite être étendues à de grands jeux de données.

Bible d'apprentissage problème machine (MLPB)

La particularité de ce référentiel est que chaque problème est étiqueté avec des balises telles que [multi-classe], [données non équilibrées], [régression], etc., ce qui facilite la recherche de certains types de problèmes / ensembles de données.

Ben
la source
6

Outre tous ces jeux de données, si vous êtes intéressé par des données relatives à l'Inde. Le site public officiel du gouvernement indien est

Il fournit des ensembles de données provenant de différents départements du gouvernement indien qui peuvent être bien utilisés pour l'analyse de données volumineuses et l'apprentissage automatique.

Gaurav
la source
4

Juste en chargeant le paquet MASS dans R, nous avons accès à plusieurs images ou ensembles de données.

install.packages ("MASS") require ("MASS")

Dileep Balineni
la source
3

3 jeux de données de https://www.jc-bingo.com/about

  • visiteur-interest.csv Intérêt cumulé des visiteurs compilé sur la base de journaux d'accès Web d'une semaine. Inclut l'adresse IP du visiteur, la chaîne d'agent d'utilisateur, le pays du visiteur, les langues et les sujets de page consultés. 19 926 enregistrements, 2,9 Mo.
  • user-agents.csv Real user user agents, classés par popularité. 4 826 enregistrements, 716 Ko.
  • bots.csv Adresses IP et chaînes de l'agent utilisateur du robot extraites des journaux d'accès Web. 1 293 enregistrements, 122 Ko.
Yuri
la source
3

De toute évidence, il existe un grand nombre de bases de données publiques.

L’une d’entre elles, pas encore mentionnée, est fournie par la FAO (Organisation des Nations Unies pour l’ alimentation et l’agriculture), accessible à l’adresse suivante:

http://www.fao.org/faostat/

Il contient des données sur la production alimentaire pour les pays du monde entier.

setempler
la source