Je sais que la plupart d'entre vous pensent probablement que Google Docs est toujours un outil primitif. Ce n'est ni Matlab ni R et pas même Excel. Pourtant, je suis déconcerté par la puissance de ce logiciel basé sur le Web qui utilise simplement la capacité de fonctionnement d'un navigateur (et est compatible avec de nombreux navigateurs qui fonctionnent très différemment).
Mike Lawrence, actif dans ce forum, a partagé une feuille de calcul avec nous en utilisant Google Docs en faisant des trucs assez fantaisistes avec. Personnellement, j'ai reproduit un cadre de test d'hypothèses assez complet (y compris de nombreux tests paramétriques et non paramétriques) initialement réalisé dans Excel dans Google Docs.
Je suis intéressé si l'un d'entre vous a essayé Google Docs et l'a poussé à ses limites dans des applications intéressantes. Je suis également intéressé à entendre parler des bugs ou défauts que vous avez rencontrés avec Google Docs
Je désigne cette question "pour le wiki de la communauté" indiquant qu'il n'y a pas de meilleure réponse à cela. C'est plus une enquête qu'autre chose.
la source
Réponses:
Ma principale utilisation des feuilles de calcul Google a été avec les formulaires Google, pour collecter des données, puis les importer facilement dans R. Voici un article que j'ai écrit à ce sujet il y a six mois:
Feuilles de calcul Google + formulaires Google + R = Collecte et importation faciles des données pour analyse
De plus, si vous êtes en collaboration, mon outil de choix est DropBox. J'ai écrit un article à ce sujet il y a quelques mois:
Synchronisation de fichiers sur plusieurs ordinateurs à l'aide de DropBox
Je l'utilise maintenant depuis environ six mois sur un projet avec 5 co-auteurs, et cela a été inestimable (synchronisation des fichiers de données de 3 contributeurs, tout le monde peut voir la dernière version de la sortie que je produis, et tout le monde cherche dans le même fichier .docx pour l'article).
Les deux articles proposent des didacticiels vidéo et des instructions verbales.
la source
En tant qu'utilisateur passionné de R, bash, Python, asciidoc, (La) TeX, logiciel open source ou tout autre outil un * x, je ne peux pas fournir de réponse objective. De plus, comme je m'oppose souvent à l'utilisation de MS Excel ou de feuilles de calcul de toute nature (enfin, vous voyez vos données, ou une partie de celles-ci, mais quoi d'autre?), Je ne contribuerais pas positivement au débat. Je ne suis pas le seul, par exemple
Un de mes collègues a perdu toutes ses macros à cause du manque de rétrocompatibilité, etc. Un autre collègue a tenté d'importer des données génétiques (environ 700 sujets génotypés sur 800 000 marqueurs, 120 Mo), juste pour les "regarder". Excel a échoué, le Bloc-notes a également abandonné ... Je suis en mesure de les "regarder" avec vi et de reformater rapidement les données avec un script sed / awk ou perl. Je pense donc qu'il y a différents niveaux à considérer lors de la discussion sur l'utilité des feuilles de calcul. Soit vous travaillez sur de petits ensembles de données, et vous souhaitez uniquement appliquer des éléments statistiques élémentaires et peut-être que ça va. Ensuite, c'est à vous de faire confiance aux résultats, ou vous pouvez toujours demander le code source, mais il serait peut-être plus simple de faire un test rapide de toutes les procédures en ligne avec le benchmark NIST. Je ne pense pas que cela corresponde à une bonne façon de faire des statistiques simplement parce que ce n'est pas un vrai logiciel statistique (IMHO), bien qu'en tant que mise à jour de la liste susmentionnée, les versions plus récentes de MS Excel semblent avoir démontré des améliorations dans leur précision pour analyses statistiques, voir Keeling et Pavur, Une étude comparative de la fiabilité de neuf progiciels statistiques ( CSDA 2007 51: 3811).
Pourtant, environ un article sur 10 ou 20 (en biomédecine, psychologie, psychiatrie) comprend des graphiques réalisés avec Excel, parfois sans supprimer le fond gris, la ligne noire horizontale ou la légende automatique (Andrew Gelman et Hadley Wickham sont certainement aussi heureux que moi en le voyant). Mais plus généralement, il a tendance à être le "logiciel" le plus utilisé selon un récent sondage sur FlowingData, qui me rappelle un vieux discours de Brian Ripley (qui a co-écrit le package MASS R, et écrit un excellent livre sur la reconnaissance des formes , entre autres):
Maintenant, si vous pensez que cela vous fournit un moyen rapide et plus simple d'obtenir vos statistiques, pourquoi pas? Le problème est qu'il y a encore des choses qui ne peuvent pas être faites (ou du moins, c'est plutôt délicat) dans un tel environnement. Je pense au bootstrap, à la permutation, à l'analyse exploratoire multivariée des données, pour n'en nommer que quelques-uns. À moins que vous ne soyez très compétent en VBA (qui n'est ni un script ni un langage de programmation), je suis enclin à penser que même les opérations mineures sur les données sont mieux gérées sous R (ou Matlab ou Python, à condition que vous obteniez le bon outil pour traiter avec par exemple ce que l'on appelle data.frame). Par-dessus tout, je pense qu'Excel ne promeut pas de très bonnes pratiques pour l'analyste de données (mais cela s'applique également à tout "cliquodrome", voir la discussion sur Medstats sur la nécessité de maintenir un enregistrement du traitement des données,Documenter les analyses et les modifications de données ), et j'ai trouvé cet article sur Practical Stats relativement illustratif de certains des pièges d'Excel. Pourtant, cela s'applique à Excel, je ne sais pas comment cela se traduit par GDocs.
Concernant le partage de votre travail, j'ai tendance à penser que Github (ou Gist pour le code source) ou Dropbox (bien que le CLUF puisse décourager certaines personnes) sont de très bonnes options (historique des révisions, gestion des subventions si nécessaire, etc.). Je ne peux pas encourager l'utilisation d'un logiciel qui stocke essentiellement vos données dans un format binaire. Je sais qu'il peut être importé en R, Matlab, Stata, SPSS, mais à mon avis:
C'est ça.
la source
"Je suis également intéressé d'entendre parler des bogues ou des failles que vous avez rencontrés avec Google Docs."
Je ne répondrai qu'à cette partie de la question initiale. Mes explorations avec Google Docs Spreadsheets (GSheets) ont porté sur les fonctions mathématiques et statistiques. En fin de compte, mon évaluation est que Google Spreadsheets est à cet égard bien inférieur en 2012 à Excel décrié de 1997.
Témoin: Google Sheets évalue apparemment erfc (x) en utilisant erfc (x) = 1-erf (x) pour les arguments pour lesquels erf (x) est proche de 1. Ils évaluent un écart-type ou une variance via la moyenne des carrés moins le carré de la moyenne; c'est une mauvaise pratique numérique. Fonctions combinatoires et probabilités discrètes telles que poisson (n, x) = pow (x, n) * exp (-x) / n! sont évalués facteur par facteur, provoquant un débordement inutile. La factorielle est évaluée en utilisant l'approximation facteur par facteur de Stirling, provoquant un débordement inutile supplémentaire. La distribution cumulative de Poisson est évaluée en faisant simplement la somme finie, de sorte que la propriété de normalisation est perdue dans l'arrondi; il en va de même pour la distribution binomiale cumulative. La distribution normale cumulative est complètement foirée; il sort de la plage [0,1]. Il y a une perte générale de précision par rapport aux implémentations des mêmes fonctions dans d'autres packages. Les descriptions des fonctions élémentaires telles que l'arrondissement sont souvent tronquées et inintelligibles; l'interprétation est un jeu de devinettes.
J'ai documenté ces problèmes dans deux séries de publications sur les forums de produits Google Docs:
(2011-11-13 et versions ultérieures) normdist renvoie toujours une valeur négative https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/
(2012-05-06 et versions ultérieures) Erreurs et autres problèmes liés aux fonctions statistiques et mathématiques dans GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/
la source