Nous entendons souvent parler de gestion de projet et de modèles de conception en informatique, mais moins fréquemment en analyse statistique. Cependant, il semble qu'une étape décisive dans la conception d'un projet statistique efficace et durable consiste à garder les choses organisées.
Je préconise souvent l'utilisation de R et une organisation cohérente des fichiers dans des dossiers distincts (fichier de données brutes, fichier de données transformé, scripts R, illustrations, notes, etc.). La principale raison de cette approche est qu’il peut être plus facile d’exécuter votre analyse ultérieurement (lorsque vous avez oublié comment vous avez produit un tracé donné, par exemple).
Quelles sont les meilleures pratiques en matière de gestion statistique de projets ou les recommandations que vous aimeriez formuler à partir de votre propre expérience? Bien entendu, cela s’applique à n’importe quel logiciel statistique. ( une réponse par poste, s'il vous plaît )
Réponses:
Je suis en train de compiler une série de directives que j'ai trouvées sur SO (comme suggéré par @Shane), Biostar (ci-après, BS) et cette SE. J'ai fait de mon mieux pour reconnaître la propriété de chaque élément et pour sélectionner la première réponse ou le vote le plus élevé. J'ai également ajouté des éléments personnels et marqué des éléments spécifiques à l'environnement [R].
Gestion de données
Codage
Une analyse
Gestion des versions
Edition / Reporting
Hadley Wickham offre en outre un aperçu complet de la gestion de projet R , y compris une illustration reproductible et une philosophie unifiée des données .
Enfin, dans son flux d'analyse d'analyse de données statistiques orienté R, Oliver Kirchkamp donne un aperçu très détaillé des raisons pour lesquelles l'adoption et le respect d'un flux de travail spécifique aideront les statisticiens à collaborer les uns avec les autres, tout en garantissant l'intégrité et la reproductibilité des résultats. Il inclut en outre des discussions sur l’utilisation d’un système de contrôle de version et de tissage. Les utilisateurs de Stata trouveront peut-être que le flux de travail de l'analyse de données à l'aide de Stott est aussi utile.
la source
Cela ne fournit pas de réponse spécifique, mais vous voudrez peut-être examiner ces questions connexes:
Vous pouvez également être intéressé par le projet récent de John Myles White visant à créer un modèle de projet statistique.
la source
Cela se recoupe avec la réponse de Shane, mais à mon avis, il y a deux piliers principaux:
la source
van Belle est la source des règles des projets statistiques réussis.
la source
Juste mes 2 cents. J'ai trouvé Notepad ++ utile pour cela. Je peux gérer des scripts distincts (contrôle du programme, formatage des données, etc.) et un fichier .pad pour chaque projet. Le fichier .pad appelle tous les scripts associés à ce projet.
la source
Bien que les autres réponses soient bonnes, j’ajouterais un autre sentiment: éviter d’utiliser SPSS. J'ai utilisé SPSS pour mon mémoire de maîtrise et maintenant pour mon travail habituel d'étude de marché.
Pendant le travail avec SPSS, il était incroyablement difficile de développer un code statistique organisé, car SPSS ne gère pas plusieurs fichiers (vous pouvez certes gérer plusieurs fichiers, mais ce n'est pas aussi simple que R), car vous ne pouvez pas stocker de jeux de données. à une variable - vous devez utiliser "dataset activate x" - code, qui peut être une douleur totale. En outre, la syntaxe est maladroite et encourage les raccourcis, ce qui rend le code encore plus illisible.
la source
Les ordinateurs portables Jupyter, qui fonctionnent avec R / Python / Matlab / etc, vous évitent de vous rappeler le script qui génère un certain chiffre. Cet article décrit une manière ordonnée de garder le code et la figure l'un à côté de l'autre. Le fait de conserver toutes les figures d’un chapitre de papier ou de thèse dans un seul cahier facilite la recherche du code associé.
Mieux encore, vous pouvez faire défiler une douzaine de chiffres pour trouver celui que vous voulez. Le code est gardé caché jusqu'à ce qu'il soit nécessaire.
la source