Certains d'entre vous utilisent-ils une feuille de calcul Google Docs pour effectuer et partager votre travail statistique avec d'autres?

15

Je sais que la plupart d'entre vous pensent probablement que Google Docs est toujours un outil primitif. Ce n'est ni Matlab ni R et pas même Excel. Pourtant, je suis déconcerté par la puissance de ce logiciel basé sur le Web qui utilise simplement la capacité de fonctionnement d'un navigateur (et est compatible avec de nombreux navigateurs qui fonctionnent très différemment).

Mike Lawrence, actif dans ce forum, a partagé une feuille de calcul avec nous en utilisant Google Docs en faisant des trucs assez fantaisistes avec. Personnellement, j'ai reproduit un cadre de test d'hypothèses assez complet (y compris de nombreux tests paramétriques et non paramétriques) initialement réalisé dans Excel dans Google Docs.

Je suis intéressé si l'un d'entre vous a essayé Google Docs et l'a poussé à ses limites dans des applications intéressantes. Je suis également intéressé à entendre parler des bugs ou défauts que vous avez rencontrés avec Google Docs

Je désigne cette question "pour le wiki de la communauté" indiquant qu'il n'y a pas de meilleure réponse à cela. C'est plus une enquête qu'autre chose.

Gaetan Lion
la source
Pourriez-vous créer un lien vers la feuille de calcul fournie par Mike Lawrence?
Andy W
Voici l'URL spreadsheets.google.com/… Elle était liée à sa question stats.stackexchange.com/questions/2956/…
Sympa
1
Les documents Google, lorsqu'ils ont été officiellement testés, ont misérablement fonctionné sur la plupart des calculs statistiques (quand ils pouvaient le faire). Voir Kellie B. Keeling et Robert J. Pavur (2011): Statistical Accuracy of Spreadsheet Software, The American Statistician, 65: 4, 265-273
whuber

Réponses:

12

Ma principale utilisation des feuilles de calcul Google a été avec les formulaires Google, pour collecter des données, puis les importer facilement dans R. Voici un article que j'ai écrit à ce sujet il y a six mois:

Feuilles de calcul Google + formulaires Google + R = Collecte et importation faciles des données pour analyse

De plus, si vous êtes en collaboration, mon outil de choix est DropBox. J'ai écrit un article à ce sujet il y a quelques mois:

Synchronisation de fichiers sur plusieurs ordinateurs à l'aide de DropBox

Je l'utilise maintenant depuis environ six mois sur un projet avec 5 co-auteurs, et cela a été inestimable (synchronisation des fichiers de données de 3 contributeurs, tout le monde peut voir la dernière version de la sortie que je produis, et tout le monde cherche dans le même fichier .docx pour l'article).

Les deux articles proposent des didacticiels vidéo et des instructions verbales.

Tal Galili
la source
Merci pour vos commentaires. C'est le type exact de commentaires qui m'intéressait. Vous avez vraiment exploité le composant de partage et d'importation de Google docs. Bien pour vous. Je vais lire votre matériel pour en savoir plus.
Sympa
Cher Gaetan, je suis ravi de votre réponse - merci pour les aimables paroles. Bien, Tal.
Tal Galili
19

En tant qu'utilisateur passionné de R, bash, Python, asciidoc, (La) TeX, logiciel open source ou tout autre outil un * x, je ne peux pas fournir de réponse objective. De plus, comme je m'oppose souvent à l'utilisation de MS Excel ou de feuilles de calcul de toute nature (enfin, vous voyez vos données, ou une partie de celles-ci, mais quoi d'autre?), Je ne contribuerais pas positivement au débat. Je ne suis pas le seul, par exemple

Un de mes collègues a perdu toutes ses macros à cause du manque de rétrocompatibilité, etc. Un autre collègue a tenté d'importer des données génétiques (environ 700 sujets génotypés sur 800 000 marqueurs, 120 Mo), juste pour les "regarder". Excel a échoué, le Bloc-notes a également abandonné ... Je suis en mesure de les "regarder" avec vi et de reformater rapidement les données avec un script sed / awk ou perl. Je pense donc qu'il y a différents niveaux à considérer lors de la discussion sur l'utilité des feuilles de calcul. Soit vous travaillez sur de petits ensembles de données, et vous souhaitez uniquement appliquer des éléments statistiques élémentaires et peut-être que ça va. Ensuite, c'est à vous de faire confiance aux résultats, ou vous pouvez toujours demander le code source, mais il serait peut-être plus simple de faire un test rapide de toutes les procédures en ligne avec le benchmark NIST. Je ne pense pas que cela corresponde à une bonne façon de faire des statistiques simplement parce que ce n'est pas un vrai logiciel statistique (IMHO), bien qu'en tant que mise à jour de la liste susmentionnée, les versions plus récentes de MS Excel semblent avoir démontré des améliorations dans leur précision pour analyses statistiques, voir Keeling et Pavur, Une étude comparative de la fiabilité de neuf progiciels statistiques ( CSDA 2007 51: 3811).

Pourtant, environ un article sur 10 ou 20 (en biomédecine, psychologie, psychiatrie) comprend des graphiques réalisés avec Excel, parfois sans supprimer le fond gris, la ligne noire horizontale ou la légende automatique (Andrew Gelman et Hadley Wickham sont certainement aussi heureux que moi en le voyant). Mais plus généralement, il a tendance à être le "logiciel" le plus utilisé selon un récent sondage sur FlowingData, qui me rappelle un vieux discours de Brian Ripley (qui a co-écrit le package MASS R, et écrit un excellent livre sur la reconnaissance des formes , entre autres):

Ne nous leurrons pas: le logiciel de statistique le plus utilisé est Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Maintenant, si vous pensez que cela vous fournit un moyen rapide et plus simple d'obtenir vos statistiques, pourquoi pas? Le problème est qu'il y a encore des choses qui ne peuvent pas être faites (ou du moins, c'est plutôt délicat) dans un tel environnement. Je pense au bootstrap, à la permutation, à l'analyse exploratoire multivariée des données, pour n'en nommer que quelques-uns. À moins que vous ne soyez très compétent en VBA (qui n'est ni un script ni un langage de programmation), je suis enclin à penser que même les opérations mineures sur les données sont mieux gérées sous R (ou Matlab ou Python, à condition que vous obteniez le bon outil pour traiter avec par exemple ce que l'on appelle data.frame). Par-dessus tout, je pense qu'Excel ne promeut pas de très bonnes pratiques pour l'analyste de données (mais cela s'applique également à tout "cliquodrome", voir la discussion sur Medstats sur la nécessité de maintenir un enregistrement du traitement des données,Documenter les analyses et les modifications de données ), et j'ai trouvé cet article sur Practical Stats relativement illustratif de certains des pièges d'Excel. Pourtant, cela s'applique à Excel, je ne sais pas comment cela se traduit par GDocs.

Concernant le partage de votre travail, j'ai tendance à penser que Github (ou Gist pour le code source) ou Dropbox (bien que le CLUF puisse décourager certaines personnes) sont de très bonnes options (historique des révisions, gestion des subventions si nécessaire, etc.). Je ne peux pas encourager l'utilisation d'un logiciel qui stocke essentiellement vos données dans un format binaire. Je sais qu'il peut être importé en R, Matlab, Stata, SPSS, mais à mon avis:

  • les données doivent être définitivement au format texte, lisible par un autre logiciel statistique;
  • l'analyse doit être reproductible, ce qui signifie que vous devez fournir un script complet pour votre analyse et qu'elle doit s'exécuter (nous approchons du cas idéal près d'ici ...) sur un autre système d'exploitation à tout moment;
  • votre propre logiciel statistique devrait implémenter des algorithmes reconnus et il devrait y avoir un moyen facile de le mettre à jour pour refléter les meilleures pratiques actuelles en matière de modélisation statistique;
  • le système de partage que vous choisissez doit inclure des versions et des fonctionnalités de collaboration.

C'est ça.

chl
la source
@Gaetan Mis à part ma réponse, j'ai donné mon +1 à la question car je pense que c'est très pertinent pour débattre de la pratique statistique et de la gestion de projet.
chl
Un commentaire pour le downvote serait grandement apprécié.
chl
@chl: bien que je n'aie pas dévalué cette réponse, je pense que je comprends pourquoi on la dévaloriserait. Les informations que vous avez fournies sont correctes, très importantes et stimulantes. TOUTEFOIS, la plupart (à l'exception des deux derniers paragraphes) ne répondent pas à la question. Idéalement, on écrirait ce grand avertissement ailleurs et lui donnerait un lien.
Boris Gorelik
@chl: malgré ce que j'ai dit dans mon commentaire, j'aime votre réponse et je la vote
Boris Gorelik
@bgbg Merci pour votre commentaire. Peut-être que je n'ai pas répondu à la question CW. Cependant, je n'ai jamais eu l'intention de donner une réponse purement provocatrice. L'OP a posé des questions sur les "bugs et défauts" potentiels dans GDocs: je fournis des illustrations de ce que je sais d'Excel, reconnaissant le fait que je ne sais pas comment cela se traduirait en GDocs. Je comprends également une partie de la question comme "quels sont les avantages de l'utilisation de GDocs pour l'analyse des données", et je viens de donner quelques arguments contre l'utilisation de la feuille de calcul pour les projets à grande échelle, ou l'analyse à la pointe du progrès (encore, j'ai reconnu à la commençant que cela serait biaisé).
chl
10

"Je suis également intéressé d'entendre parler des bogues ou des failles que vous avez rencontrés avec Google Docs."

Je ne répondrai qu'à cette partie de la question initiale. Mes explorations avec Google Docs Spreadsheets (GSheets) ont porté sur les fonctions mathématiques et statistiques. En fin de compte, mon évaluation est que Google Spreadsheets est à cet égard bien inférieur en 2012 à Excel décrié de 1997.

Témoin: Google Sheets évalue apparemment erfc (x) en utilisant erfc (x) = 1-erf (x) pour les arguments pour lesquels erf (x) est proche de 1. Ils évaluent un écart-type ou une variance via la moyenne des carrés moins le carré de la moyenne; c'est une mauvaise pratique numérique. Fonctions combinatoires et probabilités discrètes telles que poisson (n, x) = pow (x, n) * exp (-x) / n! sont évalués facteur par facteur, provoquant un débordement inutile. La factorielle est évaluée en utilisant l'approximation facteur par facteur de Stirling, provoquant un débordement inutile supplémentaire. La distribution cumulative de Poisson est évaluée en faisant simplement la somme finie, de sorte que la propriété de normalisation est perdue dans l'arrondi; il en va de même pour la distribution binomiale cumulative. La distribution normale cumulative est complètement foirée; il sort de la plage [0,1]. Il y a une perte générale de précision par rapport aux implémentations des mêmes fonctions dans d'autres packages. Les descriptions des fonctions élémentaires telles que l'arrondissement sont souvent tronquées et inintelligibles; l'interprétation est un jeu de devinettes.

J'ai documenté ces problèmes dans deux séries de publications sur les forums de produits Google Docs:

(2011-11-13 et versions ultérieures) normdist renvoie toujours une valeur négative https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 et versions ultérieures) Erreurs et autres problèmes liés aux fonctions statistiques et mathématiques dans GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

Bas Braams
la source
1
(+1) En d'autres termes, il semble évident que les ( nombreux! ) Statisticiens de Google ne sont en aucun cas impliqués dans ce projet.
Cardinal
La seule partie de Google Docs que j'ai utilisée est l'éditeur, qui est très utile lors de l'édition collaborative en temps réel . Je ne pense pas que Git et ses amis résolvent ce problème!
kjetil b halvorsen