Conserver les commentaires sur les graphiques pour l'analyse exploratoire des données

8

Lors de l'analyse exploratoire des données, je vais souvent imprimer les graphiques et écrire des commentaires / annotations, etc.

Les gens ont-ils des suggestions pour une meilleure méthodologie électronique? Je suis particulièrement intéressé par python / R.

Je recherche quelque chose de «rapide (et sale)» qui ne ralentit pas le travail d'exploration, mais aide à enregistrer les informations que j'ai faites.

Ce que je pourrais imaginer, c'est générer des graphiques au format PDF, puis ajouter des commentaires.

Idéalement, j'aimerais avoir la possibilité de le faire par programme, de sorte que si je refais les graphiques, je peux ajouter automatiquement les commentaires.

seanv507
la source
1
Ce que je fais parfois, dans R, c'est d'ajouter un tracé séparé (sur une page séparée à la fin du pdf) et de l'utiliser pour pastecertains commentaires.
hplieninger
3
Cela ressemble plus à une question de programmation et si je me trompe, vous pourriez obtenir de meilleures réponses sur R-help ou StackOverflow
mdewey
1
@mdewey, eh bien je le vois comme un flux de travail statistique dans R - Je conviens que ma `` solution suggérée '' est juste `` comment écrire des commentaires dans un pdf '', mais je suppose que les statisticiens ont déjà rencontré ce problème et pourraient suggérer une approche totalement différente au problème général de garder une trace des notes associées aux graphiques.
seanv507 du
3
Mes élèves le font sans demander en collant des graphiques dans MS Word et en ajoutant des commentaires. J'apprécie l'intérêt pour les méthodes automatisées qui chantent et qui dansent, mais parfois la basse technologie est la meilleure technologie.
Nick Cox
1
Je pense que c'est d'intérêt général. J'ai pris la liberté d'atténuer l'accent mis sur python / R, ce qui est contraire aux directives ici.
Nick Cox

Réponses:

5

Voici une solution simple que de nombreuses personnes ont trouvée utile. Si vous trouvez cela trivial, je ne serai pas en désaccord. Cela recoupe les logiciels statistiques, le système d'exploitation et d'autres détails informatiques.

Copiez et collez simplement vos graphiques dans votre traitement de texte ou de texte préféré, puis ajoutez vos propres commentaires. Cela pourrait signifier MS Word, un logiciel prenant en charge TeX, LaTeX, etc.

C'est ça. De toute évidence, les avantages sont la simplicité (rien de nouveau à apprendre) et la flexibilité (ajoutez ce que vous voulez comme vous le souhaitez).

Ce n'est pas une solution automatisée. Mais même les solutions automatisées dépendent de la fourniture d'informations sur les graphiques et vos commentaires, alors qu'est-ce qui est différent?

Nick Cox
la source
2
Je pense que vous le sous-vendez. Si, plutôt que de «coller», vous ajoutez un lien vers un fichier (comme vous pouvez le faire dans latex, etc.), alors que les graphiques sont mis à jour, le document est mis à jour - donc «automatisé». De plus, j'aime le fait que l'on puisse séparer la génération des graphiques de la mise en page (par exemple, adapter 3 graphiques sur une page vs mise en page 2 x 2)
seanv507
3

Je recommande fortement Jupyter Notebook , qui vous permet de créer des documents contenant des blocs de code entrecoupés, des tracés et des notes / documentation. Le document peut inclure du démarquage et du latex, qui sont rendus automatiquement (un peu comme écrire sur CrossValidated). Lorsque vous exécutez un bloc de code, toute sortie de texte et les tracés qu'il génère sont ajoutés en ligne au document. Vous pouvez modifier un bloc de code et réexécuter pour mettre à jour la sortie / les tracés. C'est bien pour tester des choses de manière interactive (par exemple, ajuster le code / les paramètres pour voir ce qui se passe). Je pense que c'est plus facile que d'avoir à exporter des chiffres et à les coller dans un document statique traditionnel, surtout si vous changez quoi que ce soit. Vous pouvez exporter un cahier au format PDF, etc. pour obtenir une copie statique.

Il est open source et fonctionne avec Python, R et d'autres langages. L'interface est basée sur un navigateur, elle est donc multiplateforme et facile à partager. Vous pouvez exécuter le backend sur votre propre machine, ou vous pouvez héberger des blocs-notes sur un site Web afin que vous / les autres puissiez les modifier / les visualiser / les exécuter de n'importe où (le code s'exécutera sur le serveur). Apparemment, il existe un moyen de configurer le bloc-notes comme l'interface d'un cluster de calcul pour les calculs parallèles.

user20160
la source
J'ai essayé cela à plusieurs reprises, mais je ne suis pas vraiment convaincu que cela a très bien fonctionné: combiner code / graphisme / documentation tout en s'assurant que tout est lisible semble très difficile dans la pratique. J'ai vu des présentations où cela a été fait, mais je soupçonne que l'effort impliqué est considérable (comme pour toute présentation). Mon point sur EDA est que vous faites beaucoup de graphiques, etc. - trop pour être présentés ... dans une présentation, vous montrez le meilleur. Accueillerait volontiers des exemples contredisant mon impression.
seanv507
2

J'ai tendance à faire de plus en plus d'analyses R notebooksdans RStudio. De cette façon, je peux avoir du code, des annotations et des graphiques ensemble au même endroit et ne pas avoir à produire des fichiers PDF tout le temps - ce qui est un véritable gain de temps. Vous écrivez du texte et du code dans un éditeur et en cliquant sur un bouton, le code est exécuté (et le graphique dessiné) en place. Ainsi, le texte, le code et l'intrigue restent parfaitement ensemble. Il est également très facile de convertir en HTML ou PDF en quelques clics de souris. Je ne sais pas, comment cela fonctionne avec Python, car j'utilise principalement R.

Bernhard
la source
2

On dirait que vous voulez une sorte de programmation alphabétisée . Rpermet à Sweave et Knitr d’ interfacer avec LaTeX . Il existe d'autres options pour différents types de formats de sortie, tels que ODFweave pour les documents modifiables (comme les documents Word) et RMarkdown qui peuvent produire plusieurs types (comme HTML en plus des éléments mentionnés ci-dessus). D'autres logiciels statistiques ont généralement des fonctionnalités analogues.

(Il y a un peu de travail initial pour les utiliser. Je fais généralement des projets ponctuels au lieu de projets à plus long terme qui nécessitent des rapports réguliers et similaires, donc j'utilise généralement la méthode de @ NickCox pour vider ou copier dans un fichier et en écrivant des commentaires à ce sujet.)

gung - Réintégrer Monica
la source
1

Dans R: Parfois, j'ajoute un tracé supplémentaire à un pdf avec des informations de base. Ceci est très utile si les annotations sont courtes et se rapportent aux données de tracé de sorte que vous puissiez pasteajouter des informations. Par exemple:

pdf("cars-plots.pdf")
plot(cars)
plot.new()
legend("center", bty = "n", legend =
           paste0("Data: 'cars'\n",
                  "cor = ", round(cor(cars)[1, 2], 2), "\n",
                  "N = ", nrow(cars), "\n",
                  Sys.Date()))
dev.off()

Alternativement, si vous avez des annotations plus longues, la production d'un rapport à l'aide de R Markdown pourrait être une solution.

hplieninger
la source