La question: Existe-t-il de bons exemples de recherche reproductible utilisant R qui sont disponibles gratuitement en ligne?
Exemple idéal: Plus précisément, des exemples idéaux fourniraient:
- Les données brutes (et idéalement les métadonnées expliquant les données),
- Tout le code R, y compris l’importation, le traitement, les analyses et la production de données,
- Utiliser une approche ou une autre pour relier le résultat final au document final,
- Le tout dans un format facilement téléchargeable et compilable sur l’ordinateur du lecteur.
Idéalement, l'exemple serait un article de journal ou une thèse où l'accent est mis sur un sujet réellement appliqué, par opposition à un exemple d'enseignement statistique.
Motifs d’intérêt: Je suis particulièrement intéressé par les sujets appliqués dans les articles de revues et les thèses car, dans ces situations, plusieurs problèmes supplémentaires se posent:
- Des problèmes se posent concernant le nettoyage et le traitement des données,
- Des problèmes se posent liés à la gestion des métadonnées,
- Les revues et thèses ont souvent des attentes en matière de style pour l’apparence et la mise en forme des tableaux et des figures,
- De nombreuses revues et thèses présentent souvent un large éventail d’analyses qui soulèvent des problèmes en termes de flux de travail (par exemple, comment séquencer des analyses) et de temps de traitement (par exemple, des problèmes d’analyses en mémoire cache, etc.).
Le fait de voir des exemples de travail complets pourrait fournir un bon matériel d’instruction aux chercheurs débutant par une recherche reproductible.
la source
Irréproductibilité des prédicteurs NCI60 de la chimiothérapie
Ceci est une analyse reproductible montrant le manque de reproductibilité d'un article qui a fait la une des journaux. Un essai clinique basé sur les fausses conclusions du papier non reproductible a été suspendu, rétabli, suspendu à nouveau, ... C'est un bon exemple d'analyse reproductible dans l'actualité.
la source
J'ai quelques exemples de ce type sur ma page de documents de recherche . (Je ne suis pas autorisé à poster plus d'un hyperlien en tant que nouveau membre. Je vais donc simplement décrire les articles sur ce site.)
(1) "Rendre manifeste les effets dans des expériences aléatoires" utilise le système de vignettes de R.
(2) "Attribuer les effets à une campagne en grappes randomisées" était un document plus complexe qui impliquait des simulations fastidieuses. Nous avons utilisé un système Makefile et l’avons posté dans le fichier de données.
(3) "EDA for HLM" a été ma première tentative. Ici, je viens de mettre les données et les fichiers Sweave associés dans une archive.
Un problème que nous avons découvert lors de la création de notre archive JASA était que les versions et les valeurs par défaut des packages CRAN avaient été modifiées. Ainsi, dans cette archive, nous incluons également les versions des packages que nous avons utilisés. Le système basé sur la vignette va probablement casser à mesure que les gens changeront leurs paquets (vous ne savez pas comment inclure des paquets supplémentaires dans le paquet qui est le Compendium).
Enfin, je me demande ce qu’il faut faire lorsque R change lui-même. Existe-t-il un moyen de produire, par exemple, une machine virtuelle qui reproduit l’environnement informatique complet utilisé pour un papier de telle sorte que la machine virtuelle ne soit pas énorme?
Quoi qu'il en soit, j'espère que ces exemples aideront. Au moins, ils montrent certaines de mes propres expériences dans ce domaine.
(Voici quelques hyperliens en texte brut.)
la source
Koenker et Zeileis fournissent une page Web avec un exemple relativement complet. Ils partagent:
la source
Nous avons écrit un article expliquant comment utiliser R / Bioconductor lors de l'analyse de données de puces à ADN. Le papier a été écrit en Sweave et tout le code utilisé pour générer les graphiques est inclus en tant que matériel supplémentaire.
Gillespie, CS, G. Lei, Boys, RJ, AJ Greenall, DJ Wilkinson, 2010. Analyse des données de microréseaux dans le temps d'une levure à l'aide de BioConductor: une étude de cas utilisant des matrices Affymetrix BMC Research Notes, 3:81.
la source
La page de Charles Geyer sur Sweave présente un exemple tiré d'une thèse qui répond à certaines de vos exigences (les données brutes proviennent simplement d'un package R, mais le code R / sweat et le PDF final sont disponibles):
(Le fichier source est lié dans la section "Supports supplémentaires pour un papier".)
Je sais que j'ai déjà rencontré au moins un exemple R en parcourant la page de matériel ReproducibleResearch.net auparavant, mais je ne l'ai malheureusement pas marqué.
la source
Simon Jackman a un exemple particulièrement utile d'analyse des résultats d'un sondage: "Américains et Australiens 10 ans après le 11 septembre". Il contient de nombreux exemples d’intégration de tableaux et de figures.
Il a réalisé le document Sweave et le rapport PDF via ce blog .
Bien que les données brutes ne soient pas fournies (pour autant que je sache), il n’est donc pas possible d’exécuter les exemples réels de Sweave, mais je pense qu’on peut en apprendre beaucoup en étudiant le code Sweave.
la source
Neil Saunders a analysé les interactions en ligne associées à une conférence. Plusieurs propriétés qui en font un exemple utile de Sweave incluent:
ggplot
Les matériaux sont disponibles ici:
la source
Regardez aussi Journal Of Statistical Software ; ils encouragent la fabrication de papiers dans Sweave.
la source
J'en ai trouvé de bons par le passé et je les posterai dès que je les déterrerai, mais quelques suggestions générales rapides:
la source
Robert Gentleman a écrit un article intitulé "Recherche reproductible: une étude de cas en bioinformatique"
Il implémente un ensemble d'analyses en tant que package R et utilise Sweave. Il aborde également l'utilisation de Sweave de manière plus générale.
Consultez la section "Fichiers associés" de la page d'article pour un fichier archive de tous les fichiers et dossiers utilisés.
Référence:
la source
http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1
Un beau papier, rédigé par un de mes collègues de laboratoire. Notre PI était très heureux quand quelque chose qui ressemblait à un courrier de fans est arrivé pour cela. Désormais, toutes les publications du groupe ont les méthodes supplémentaires décrites dans LaTeX / Sweave. Certains papiers aussi (ne pouvant pas décider de garder le mien dans LyX / Sweave ou de se coucher et de faire les suppléments dans Sweave).
la source
Rechercher des exemples et des pratiques est un bon moyen d’apprendre, mais je voulais juste mentionner que la reproductibilité présente un aspect non seulement technique / script relancé, mais également un style de code et un aspect structurant, la minimisation des effets secondaires dans les fonctions principales, etc. Le logiciel Chambers Book pour l'analyse des données permet de comprendre plus en profondeur les techniques permettant d'éviter les problèmes de fiabilité et de reproductibilité au niveau du code R.
la source
Si vous avez encore besoin d’un excellent exemple d’analyse entièrement REPRODUCTIBLE et d’un PAPIER, utilisez ce dépôt .
@Jscamac a fait un excellent travail en rendant son analyse reproductible et je l'ai personnellement validée.
Vous pouvez apprendre à utiliser des fonctions spécifiques à R, telles que le package,
remake
pour en assurer la reproductibilité.Attention, les calculs prennent environ une heure.
Son tout écrit et produit un papier LaTeX à la fin avec des chiffres.
la source