Il semble que beaucoup de personnes (y compris moi-même) aiment effectuer une analyse exploratoire de données dans Excel. Certaines limitations, telles que le nombre de lignes autorisées dans une feuille de calcul, sont pénibles, mais dans la plupart des cas, il n’est pas impossible d’utiliser Excel pour jouer avec les données.
Un article de McCullough et Heiser , cependant, crie pratiquement que vous obtiendrez des résultats erronés - et brûlera probablement aussi en enfer - si vous essayez d’utiliser Excel.
Ce document est-il correct ou est-il biaisé? Les auteurs sonnent comme s'ils détestaient Microsoft.
software
computational-statistics
excel
Carlos Accioly
la source
la source
R
SAS ou).Réponses:
Utilisez le bon outil pour le bon travail et exploitez les atouts des outils que vous connaissez.
Dans le cas d'Excel, il existe quelques problèmes importants:
N'utilisez pas de feuille de calcul pour gérer les données, même si celles-ci vont en tenir un. Vous ne faites que demander des problèmes, des problèmes terribles. Il n’existe pratiquement aucune protection contre les erreurs typographiques, le mélange en bloc de données, le tronquage des valeurs de données, etc., etc.
Bon nombre des fonctions statistiques sont en effet brisées. La distribution est l'un d'entre eux.
Les graphiques par défaut sont affreux.
Il manque quelques graphiques statistiques fondamentaux, en particulier les boîtes à moustaches et les histogrammes.
Le générateur de nombres aléatoires est une blague (mais malgré cela reste efficace à des fins éducatives).
Évitez les fonctions de haut niveau et la plupart des compléments; ils sont c ** p. Mais ceci n’est qu’un principe général de la sécurité informatique: si vous n'êtes pas sûr de la fonction d’une fonction, ne l’utilisez pas. Tenez-vous en aux bas niveaux (qui incluent les fonctions arithmétiques, le classement, les fonctions exp, ln, trig et, dans les limites, les fonctions de distribution normales). N'utilisez jamais un complément produisant un graphique: cela va être terrible. (NB: il est très facile de créer vos propres diagrammes de probabilité à partir de rien. Ils seront corrects et hautement personnalisables.)
En sa faveur, cependant, sont les suivants:
Ses calculs numériques de base sont aussi précis que peuvent l'être les flotteurs à double précision. Ils incluent des éléments utiles, tels que log gamma.
Il est assez facile de placer un contrôle autour des zones de saisie dans une feuille de calcul, ce qui permet de créer facilement des simulations dynamiques.
Si vous avez besoin de partager un calcul avec des utilisateurs non statistiques, la plupart d'entre eux se sentiront à l'aise avec un tableur et aucun avec un logiciel de statistique, peu importe le prix.
Il est facile d’écrire des macros numériques efficaces, notamment le portage de l’ancien code Fortran, qui est assez proche de VBA. De plus, l'exécution de VBA est raisonnablement rapide. (Par exemple, j'ai un code qui calcule avec précision les distributions non centrales à partir de zéro et trois implémentations différentes de Fast Fourier Transforms.)
Il prend en charge une simulation efficace et des add-ons Monte-Carlo tels que Crystal Ball et @Risk. (Ils utilisent leurs propres GNA, en passant - j'ai vérifié.)
L'interaction directe avec (un petit ensemble) de données est immédiate: c'est mieux que n'importe quel logiciel de statistiques, Mathematica, etc. Utilisé comme une calculatrice géante avec beaucoup de stockage, un tableur prend tout son sens.
Une bonne EDA, utilisant des méthodes robustes et résistantes, n’est pas facile, mais une fois que vous l’avez faite une fois, vous pouvez la réinstaller rapidement. Avec Excel, vous pouvez reproduire efficacement tous les calculs (bien que quelques-uns seulement des graphes) dans le livre EDA de Tukey, y compris le polissage médian des tableaux à n voies (bien que ce soit un peu fastidieux).
En réponse directe à la question initiale, ce document comporte un biais: il se concentre sur le matériel sur lequel Excel est le plus faible et qu'un statisticien compétent est le moins susceptible d’utiliser. Ce n'est cependant pas une critique du journal, car de tels avertissements doivent être diffusés.
la source
=TINV(2*p,df)
des valeurs de p variant de 0,01 à presque 0 et comparez-les aux valeurs correctes. (J'ai vérifié avec df allant de 2 à 32.) Les erreurs commencent par le sixième chiffre significatif, puis explosent une fois que p est environ 1.E-5 ou moins. Même si ces valeurs de p sont faibles, ce sont des valeurs réalistes à tester, car elles sont cruciales pour les tests de comparaisons multiples et pour le calcul des valeurs liées à la distribution t, telles que le t non central.Un article intéressant sur l'utilisation d'Excel dans un contexte bioinformatique est le suivant:
Ce court document décrit le problème des conversions de types automatiques dans Excel (notamment les conversions par date et virgule flottante). Par exemple, le nom de gène Sept2 est converti en 2-Sept. Vous pouvez réellement trouver cette erreur dans les bases de données en ligne .
Utiliser Excel pour gérer des quantités de données moyennes à importantes est dangereux. Les erreurs peuvent facilement se glisser sans que l'utilisateur s'en aperçoive.
la source
Eh bien, la question de savoir si le document est correct ou partial doit être simple: vous pouvez simplement reproduire certaines de leurs analyses et voir si vous obtenez les mêmes réponses.
McCullough prend différentes versions de MS Excel à part depuis quelques années maintenant, et apparemment, MS n'a pas jugé bon de corriger les erreurs qu'il avait signalées il y a des années dans les versions précédentes.
Je ne vois pas de problème à jouer avec les données dans Excel. Mais pour être honnête, je ne ferais pas mes analyses "sérieuses" dans Excel. Mon principal problème ne serait pas des inexactitudes (ce qui, je suppose, ne sera que très rarement un problème), mais l'impossibilité de suivre et de reproduire mes analyses un an plus tard lorsqu'un critique ou mon patron me demande pourquoi je ne l'ai pas fait. X - vous pouvez sauvegarder votre travailler et vos impasses en code R commenté, mais pas de manière significative dans Excel.
la source
Incidemment, une question sur l'utilisation des feuilles de calcul Google a suscité des opinions contrastées (et donc intéressantes) à ce sujet. Certains d'entre vous utilisent-ils le tableur Google Docs pour effectuer leur travail statistique et le partager avec d'autres?
Je pense à un article plus ancien qui ne semblait pas si pessimiste, mais il n’est cité que marginalement dans l’article que vous avez mentionné: Keeling et Pavur, Une étude comparative de la fiabilité de neuf logiciels de statistique (CSDA 2007 51: 3811). Mais maintenant, j'ai trouvé le vôtre sur mon disque dur. Un numéro spécial a également été publié en 2008 (voir la section Spéciale sur Microsoft Excel 2007 et, plus récemment, dans le Journal of Statistical Software: Sur la précision numérique des feuilles de calcul .
Je pense qu’il s’agit d’un débat de longue date et que vous trouverez divers articles / opinions sur la fiabilité d’Excel pour l’informatique statistique. Je pense qu'il y a différents niveaux de discussion (quel type d'analyse envisagez-vous de faire, comptez-vous sur le résolveur interne, existe-t-il des termes non linéaires entrant dans un modèle donné, etc.) et des sources d'inexactitude numérique pourraient surgir en raison d' erreurs de calcul appropriées ou de problèmes de choix de conception ; ceci est bien résumé dans
Maintenant, pour l'analyse exploratoire des données, il existe diverses alternatives offrant des capacités de visualisation améliorées, des graphiques multivariés et dynamiques, par exemple GGobi - mais voir les discussions associées sur ce wiki.
Toutefois, le premier point que vous avez soulevé concerne clairement un autre problème (OMI), à savoir l’utilisation d’un tableur pour traiter un grand ensemble de données: il est tout simplement impossible d’importer un fichier csv volumineux dans Excel (je pense aux données génomiques, par exemple). mais cela s’applique à d’autres types de données de grande dimension). Il n'a pas été construit à cet effet.
la source
Les documents et les autres participants soulignent les faiblesses techniques. Whuber fait un bon travail en décrivant au moins une partie de ses points forts. Personnellement, je fais un travail statistique approfondi dans Excel (tests d’hypothèses, régressions linéaires et multiples) et je l’adore. J'utilise Excel 2003 avec une capacité de 256 colonnes et 65 000 lignes pouvant gérer à peu près 100% des ensembles de données que j'utilise. Je crois comprendre qu'Excel 2007 a considérablement augmenté cette capacité (rangées sur des millions).
Comme Whuber le mentionne, Excel sert également de plate-forme de départ pour une multitude de logiciels add-in remarquables, tous puissants et faciles à utiliser. Je pense à Crystal Ball et à @Risk pour la simulation de Monte Carlo; XLStat pour de puissantes statistiques et analyses de données; Quel est le meilleur pour l'optimisation. Et la liste continue. C'est comme si Excel était l'équivalent d'un IPod ou d'un IPad avec un zillion d'applications assez incroyables. Accordé les applications Excel ne sont pas bon marché. Mais, pour ce qu'ils sont capables de faire, ce sont généralement de très bonnes aubaines.
En ce qui concerne la documentation du modèle, il est si facile d’insérer une zone de texte dans laquelle vous pouvez littéralement écrire un livre sur votre méthodologie, vos sources, etc. Vous pouvez également insérer des commentaires dans n’importe quelle cellule. Donc, si quelque chose, Excel est vraiment bon pour faciliter la documentation incorporée.
la source
Excel n'est pas bon pour les statistiques, mais il peut être merveilleux pour l'analyse de données exploratoire. Regardez cette vidéo pour des techniques particulièrement intéressantes. La capacité d'Excel à colorier vos données de manière conditionnelle et à ajouter des graphiques à barres dans une cellule peut donner un bon aperçu de la structure de vos données brutes.
la source
Une autre bonne source de référence expliquant pourquoi vous ne souhaitez peut-être pas utiliser Excel est la suivante:
Dépendance au tableur
Si vous vous trouvez dans une situation où vous avez vraiment besoin d'utiliser Excel (certains départements académiques insistent), je suggérerais alors d'utiliser le plugin Rexcel . Cela vous permet d'interfacer avec Excel, mais utilise le programme R comme moteur de calcul. Vous n'avez pas besoin de connaître R pour l'utiliser, vous pouvez utiliser les menus déroulants et les boîtes de dialogue, mais vous pouvez en faire beaucoup plus si vous le faites. Étant donné que R effectue les calculs, il est beaucoup plus fiable qu'Excel et vous avez de meilleurs graphiques, diagrammes à boîte et autres graphiques manquants dans Excel. Cela fonctionne même avec la mise à jour automatique des cellules dans Excel (bien que cela puisse ralentir les choses si vous avez de nombreuses analyses complexes à recalculer à chaque fois). Il ne résout pas tous les problèmes de la page de dépendance du tableur, mais représente une amélioration considérable par rapport à l'utilisation de straight excel.
la source
Excel peut être très utile pour l’analyse exploratoire de données et l’analyse de régression linéaire avec les bons plugins. Il existe un certain nombre de produits commerciaux, bien que la plupart d'entre eux laissent à désirer en termes de qualité des résultats qu'ils produisent (ils ne tirent pas pleinement parti des options de création de graphiques d'Excel ou de la possibilité de les relier à d'autres applications Office) et En général, ils ne sont pas aussi bons qu'ils pourraient l'être pour la visualisation et la présentation des données. Ils ont également tendance à ne pas soutenir une approche de modélisation disciplinée dans laquelle (entre autres choses) vous gardez une piste d'audit bien documentée pour votre travail. Voici un plugin GRATUIT, "RegressIt", qui répond à beaucoup de ces problèmes: http://regressit.com. Il fournit un très bon support pour l’analyse exploratoire (y compris la possibilité de générer des tracés de séries chronologiques parallèles et des matrices de diagramme de dispersion comportant jusqu’à 50 variables), il est facile d’appliquer des transformations de données telles que le décalage, la journalisation et la différenciation (qui ne sont souvent pas appliquées). par les utilisateurs naïfs de la régression), il fournit un tableau très détaillé et une sortie graphique qui prend en charge les meilleures pratiques en matière d’analyse de données, et il maintient une feuille de travail de piste de vérification qui facilite les comparaisons de modèles côte à côte, tout en conservant une trace des modèles. ont été installés dans quel ordre. Cela complète bien ce que vous utilisez, si vous utilisez des données multivariées et qu'au moins une partie de votre travail est effectuée dans un environnement Excel.
la source