Options d'hébergement pour les données accessibles au public

12

Vous avez donc décidé de soutenir l'idée d'une recherche reproductible et souhaitez rendre vos données disponibles en ligne pour que les gens puissent les voir et les utiliser. La question est, où l'hébergez-vous?

Ma première inclination est bien sûr l'espace Web privé que j'ai sur un serveur universitaire, mais ces choses ne sont en fait pas si persistantes - si je quitte, le répertoire reste ouvert très peu de temps avant de disparaître. Ce n'est pas le bon réglage pour garder les données disponibles pour que les gens puissent les utiliser et travailler à l'avenir.

Utilisez-vous quelque chose comme GitHub ou SourceForge? Ou un autre service?

Les données en question sont le résultat de certaines simulations d'un intérêt très étroit - je ne pense donc pas nécessairement qu'un endroit comme InfoChimps ou un autre des référentiels de données publics soit le bon endroit pour cela. C'est moins "Vous pouvez apprendre des choses avec ce code!" et plus "Vous pouvez reproduire la figure 3 dans cet article".

Fomite
la source
1
Pertinent, peut-être en double: stats.stackexchange.com/questions/10045/…
Matt Parker
1
Absolument pertinent - en ajoutant quelques détails qui suggèrent pourquoi je ne pensais pas que c'était un doublon.
Fomite
@EpiGrad: Quel genre de date avez-vous en tête? S'il s'agit d'un code source lié à votre projet de recherche, vous pouvez le joindre à votre préimpression arXiv .
Piotr Migdal
@PiotrMigdal Idéalement, j'aimerais que les données puissent traîner pendant plusieurs années, assez longtemps pour que la propagation habituelle des citations papier, etc. fonctionne. Je l'attacherais à une préimpression arXiv si seulement mon domaine l'utilisait;)
Fomite
@EpiGrad Alors peut-être un bon endroit pour rechercher est Open Data comme un aspect de la science ouverte - michaelnielsen.org/blog/open-science .
Piotr Migdal

Réponses:

4

Une option simple est github .

Je l'utilise un peu pour partager des données et du code d'analyse de données. Quelques bons exemples d'autres personnes partageant du code et des données sur le site sont répertoriés sur cette question .

Avantages de Github

  • Facile à télécharger une fois que vous vous êtes familiarisé avec git, et pourquoi ne pas utiliser git pour vos besoins de contrôle de version.
  • Vous pouvez utiliser des listes pour de simples fichiers uniques
  • Il est facile pour les autres de télécharger un ou plusieurs fichiers sous forme d'archive
  • Il a une bonne quantité de stockage gratuit
  • le code source peut être consulté sur Internet
  • et plus...

Bien sûr, github n'est pas parfait pour les données. Je peux voir les avantages d'utiliser un référentiel institutionnel plus permanent ou un autre outil dédié pour un archivage plus sérieux.

Jeromy Anglim
la source
1
C'est en fait la solution que j'ai choisie. Une partie du problème avec un référentiel institutionnel est que l'institution dans laquelle je suis est en pleine mutation, et les données ne sont pas vraiment assez importantes pour l'un des entrepôts de Big Data.
Fomite
4

Une autre option semble être Dataverse , qui est disponible en tant que service et logiciel open source. Mais je ne l'ai pas essayé.

Karsten W.
la source
2

Une possibilité pour les universitaires est l'utilisation d'un référentiel numérique de campus souvent hébergé par les bibliothèques du campus (pour moi, un lieu logique pour les ensembles de données qui accompagnent les publications).

Un référentiel numérique populaire (gratuit) est DSpace qui, à ma connaissance, peut héberger des ensembles de données. Mais c'est un service que quelqu'un de votre institution doit héberger.

MannyG
la source