Excel est-il suffisant pour la science des données?

10

Je suis en train de me préparer à enseigner un cours d'introduction à la science des données en utilisant le langage de programmation R. Mon public est composé d'étudiants de premier cycle spécialisés dans les matières commerciales. Un étudiant de premier cycle en entreprise n'a pas d'expérience en programmation informatique, mais a suivi quelques cours utilisant Excel.

Personnellement, je suis très à l'aise avec R (ou d'autres langages de programmation) car je me suis spécialisé en informatique. Cependant, j'ai le sentiment que beaucoup de mes élèves se sentiront réticents à apprendre un langage de programmation, car cela peut leur sembler difficile.

Je connais Excel, et je pense qu'Excel peut être utile pour la simple science des données, mais il est nécessaire que les étudiants apprennent un langage de programmation sérieux pour la science des données (par exemple, R ou Python). Comment puis-je me convaincre et convaincre les étudiants qu'Excel est insuffisant pour un étudiant en commerce sérieux étudiant la science des données et qu'il est nécessaire pour eux d'apprendre une certaine programmation?

Modifié en réponse au commentaire

Voici quelques-uns des sujets que je couvrirai:

  • Traitement et nettoyage des données
  • Comment manipuler un tableau de données, par exemple, sélectionner un sous-ensemble de lignes (filtrer), ajouter de nouvelles variables (muter), trier les lignes par colonnes
  • Jointures SQL à l'aide du package dplyr
  • Comment dessiner des graphiques (nuages ​​de points, graphiques à barres, histogrammes, etc.) à l'aide du package ggplot2
  • Comment estimer et interpréter des modèles statistiques tels que la régression linéaire, la régression logistique, les arbres de classification et les k-voisins les plus proches

Parce que je ne connais pas très bien Excel, je ne sais pas si toutes ces tâches peuvent être effectuées facilement dans Excel.

J'aime coder
la source
Sans savoir ce qui est sur votre programme, cette question est sans réponse. Cela dit, vous devriez jeter un œil à Power Pivot / Data Model dans Excel. De nos jours, vous pouvez facilement gérer des ensembles de données de plusieurs gigaoctets avec des millions de lignes dans Excel, et c'est rapide.
Gaius
@Gaius J'ai ajouté quelques détails sur ce que je veux enseigner dans le cours
J'aime
Vos points 1-4 sont bien pris en charge par le modèle de données support.office.com/en-us/article/… - pour le point 5, je suggère le niveau gratuit d'AzureML studio.azureml.net
Gaius
AzureML fonctionne également avec R btw
Gaius
4
À propos de votre dernier point - jetez un œil au livre "Data Smart" de John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

Réponses:

8

Tout d'abord, consultez ce post . De nombreuses raisons expliquent pourquoi Excel est inférieur aux autres solutions, en ce qui concerne les tâches de science des données. Excel ne peut pas non plus gérer de grands ensembles de données (des centaines de milliers d'enregistrements - sans parler de quoi que ce soit à proximité des Big Data ), des images et des données sonores.

Excel est bon pour les tâches simples concernant les feuilles de calcul; il met davantage l'accent sur la présentation et la facilité d'utilisation , tout en ayant un support minimal pour réellement analyser les données. À moins que vous ne vouliez tout simplement calculer des mesures statistiques simples (moyenne, moyenne, etc.) ou construire un modèle très simple (par exemple une régression linéaire), Excel est inefficace. Cela étant dit, 99% du travail qu'une entreprise doit gérer concernant les données est assez simple pour être gérable via Excel.

Cependant, la science des données traite principalement de la régression, de la classification et des modèles complexes que Excel n'est pas équipé pour gérer! Si vos élèves veulent se familiariser avec la science des données, vous devez leur enseigner un outil qui leur sera utile (R, python, etc.). Ces langues ont également des bibliothèques avec des tonnes de modèles intégrés pour "jouer avec".

Une autre raison vraiment énorme pour laquelle j'irais avec ces dernières options est qu'elles sont open source . Personnellement, je pense que les logiciels open source devraient être préférés d'un point de vue éducatif aux solutions propriétaires (c'est aussi pourquoi je suggère python et R plutôt que Matlab)!

Djib2011
la source
Je suis d'accord avec tout ce qui précède, mais il a dit que ce sont des majors commerciales. Pourquoi ne pas enseigner R mais aussi faire la démonstration d'un plugin R / Excel?
CalZ
1
"Excel ne peut pas non plus gérer de grands ensembles de données (des centaines de milliers d'enregistrements" <- oui, il le peut facilement. Et il peut agir en tant que client pour des back-ends sérieux tels qu'AzureML et PowerBI. Je ne suis pas un fanboy d'Excel " "tellement mais ça me dérange de voir des gens soi-disant" pilotés par les données "qui ne connaissent même pas les outils de base.
Gaius
1
Et si c'était un jeu de données d'un million de lignes plus des milliers de colonnes, sur la même machine "de base" (16 Go de RAM, i7 ecc), quelle solution l'ouvrirait plus rapidement? Je n'essaie pas de dénigrer Excel, juste une curiosité honnête. Trop ma connaissance, je ne peux même pas ouvrir un tel ensemble de données dans Excel. RStudio le lit sans problème sur le même PC.
RLave
7

Je viens de terminer un Master en Business Analytics et j'ai été confronté au même problème que vous décrivez. Heureusement, je suis une personne technique et j'ai pu m'enseigner le R et Python, mais j'étais coincé à enseigner au reste de la classe comment utiliser R et Python. Les cours que j'ai eu qui utilisaient R / Python étaient handicapés par le manque de compréhension technique des étudiants et donc trop de temps a été consacré à la façon d'ouvrir R / Python. Les cours qui sont allés dans l'autre sens étaient décevants et peu pratiques. Je voulais faire pour un projet de classe quelque chose qui ne pouvait pas être fait dans Excel à cause de ses limites mais le professeur n'accepterait aucun autre outil.

Ce n'est peut-être pas quelque chose que vous pouvez faire tout de suite, mais je vous recommande fortement d'essayer d'obtenir du département qu'il exige un cours de programmation avant de suivre votre cours. La science des données et l'analyse commerciale IMHO devraient être des parcours menant à des diplômes interdisciplinaires qui nécessitent une bonne partie de l'informatique, mais jusqu'à ce que les programmes mûrissent et que le système universitaire s'améliore, cela pourrait ne pas se produire pendant un certain temps.

Matt Camp
la source
Vous avez mentionné que vous "vouliez faire pour un projet de classe quelque chose qui a fini par ne pas être possible dans Excel en raison de ses limites". Qu'essayiez-vous de faire qui ne pouvait pas être fait dans Excel?
J'aime
3

Je pense que vous devez leur enseigner un langage de science des données populaire comme Python ou R. Excel ne va pas les aider dans un vrai travail, et n'est pas pratique à des fins de science des données. Je dirais probablement que Python serait le plus précieux pour eux à long terme, et avec des packages comme scikit-learn, vos régressions et classifications peuvent être démontrées en très peu de lignes de code qu'elles peuvent lire et comprendre plus facilement. Il n'est pas toujours facile de comprendre ce que fait R simplement en le lisant.

Un autre conseil: ne perdez pas de temps à forcer vos élèves à configurer un IDE et à télécharger les packages nécessaires, si vous utilisez python, créez un environnement virtuel pour eux avec tous les packages nécessaires et configurez un IDE comme pycharm (ils peuvent obtenir ceci et la plupart des autres IDE sous une licence étudiant / universitaire) où ils peuvent ensuite développer et exécuter leur code via l'interface utilisateur plutôt que sur la console, ce qu'ils peuvent trouver intimidant et déroutant. Si vous suivez la route R, assurez-vous que vous disposez d'un IDE comme RStudio et assurez-vous que toutes les inclusions et installations de packages sont incluses dans votre exemple de code ou entièrement décrites.

Dan Carter
la source
"Excel ne va pas les aider dans un vrai travail", c'est certainement si c'est ce que tous leurs collègues utilisent. Quels emplois réels dans votre expérience n'utilisent pas Excel?
Gaius
3
Tout rôle de Data Science travaillant avec de grandes quantités de données, le mien inclus. Selon vous, quels emplois DS utiliseraient Excel comme outil principal, par intérêt?
Dan Carter
Je vois sur votre profil que vous êtes étudiant? Oh. Ce sont des étudiants en commerce qui suivent un cours de DS. Dans leur travail professionnel, ils utiliseront absolument Excel comme leur principal outil.
Gaius
1
Bien sûr, vous avez raison, ils utiliseront probablement Excel dans un rôle de type commercial, cependant, comme OP le dit clairement: ils ont déjà suivi des cours qui couvrent Excel. Ajoutez à cela le fait qu'Excel ne convient pas à l'industrie ou à la science des données universitaires et il est clair que leur enseigner `` Excel pour la science des données '' ne va pas les aider dans un vrai travail, comme je l'ai dit. Vous ne pouvez pas apprendre à un homme (ou une femme) à pêcher, en leur apprenant à parler français.
Dan Carter
Et s'ils ont déjà suivi des cours sur Excel? Ne traitez pas comme des imbéciles incapables d'apprendre R. Nous ne parlons pas ici de Haskell ou de LISP!
Emre
2

Comment puis-je me convaincre et convaincre les étudiants qu'Excel est insuffisant pour un étudiant en commerce sérieux étudiant la science des données

Créez dans R un énorme data.frame (quelques lignes mln et des centaines de colonnes), enregistrez-le sous .xlsx.

Montrez-leur la différence de temps en le chargeant avec R et dans Excel sur la même machine. Comparez les opérations statistiques de base entre les deux sur le même ensemble de données, même les graphiques.

Point no. 2-4 sur votre liste peut également être fait dans Excel, juste beaucoup plus douloureusement, montrez-leur quelques exemples de la simplicité (et de la rapidité) du filtrage avec dplyr, par rapport à Excel de base, encore une fois sur un énorme ensemble de données, cela mettrait en évidence la différence.

Point bonus si vous pouvez trouver un ensemble de données qui plante votre PC avec Excel.

En outre, j'enchaînerais la partie "gratuite" de R (ou Python). Par exemple, par rapport à SAS, si vous voulez simplement essayer une solution (c'est-à-dire une sorte de cluster), vous chargez la bibliothèque et essayez, pas besoin de payer plus, juste pour essayer.

Pour moi, c'est la beauté de celui-ci, vous pouvez essayer gratuitement tout ce dont vous avez besoin, et souvent c'est la clé dans DS, imaginez si vous devez payer pour chaque bibliothèque que vous installez.

RLave
la source
1

Excel et Data Science - ça me semble vraiment étrange. Peut-être Excel et 'Data Analysis'.

Quoi qu'il en soit, je pense qu'un bon compromis entre Excel et R est: KNIME ( http://www.knime.org/knime-analytics-platform ). C'est gratuit sur le bureau et beaucoup plus facile à démarrer. Vous pouvez importer / exporter vers Excel mais également utiliser R, Python ou Java si les nœuds ~ 1.000 manquent certaines fonctionnalités dont vous avez besoin. Étant donné que les flux de travail sont créés visuellement, il est également beaucoup plus facile de les montrer à quelqu'un qui ne connaît aucun langage de programmation - ce qui est un avantage considérable dans certaines entreprises.

Tobi
la source
0

Je pense que le problème est que vous essayez de convaincre vos étudiants qu'en prenant votre classe, ils peuvent faire de la science des données similaire au niveau de la science des données moderne, c'est-à-dire des trucs fantaisistes comme le traitement d'image, la reconnaissance faciale. Vous entendez ce dicton la plupart du temps, "en suivant ce cours, vous allez ..." Ce dont vous avez besoin pour leur enseigner, c'est l'amour des données et le courage de parcourir un tas de données, en jouant avec eux pour un certain sens d'eux. Au moment où ils peuvent le faire, vous pouvez les appeler des scientifiques des données et vous devriez être fier de vous pour avoir maintenant une nouvelle génération de scientifiques des données. Après cela, s'ils sont très sérieux en science des données, ils peuvent continuer à suivre d'autres cours intenses qui traitent des mathématiques, des statistiques et de l'informatique (expérience de programmation comme vous l'avez dit). J'étais dans la même situation que vos élèves. Je n'avais aucune expérience en CS, mais je voulais percer dans la science des données et l'IA en prenant des cours en ligne avec de belles promesses. J'ai fini par gaspiller des tonnes d'argent, mais je me suis retrouvé dans une immense frustration (oh, je dois suivre ce cours pour connaître cet algorithme, oh ils parlent de réseaux de neurones maintenant, donc je dois m'inscrire à l'autre classe, etc.) TL ; DR. Les outils ne représentent que 1% du problème que vous rencontrez. Avec votre expérience, vous ne devriez avoir aucun problème à déterminer les tâches ci-dessus dans Excel en une semaine. oh ils parlent maintenant de réseaux de neurones donc je dois m'inscrire à l'autre classe, etc.) TL; DR. Les outils ne représentent que 1% du problème que vous rencontrez. Avec votre expérience, vous ne devriez avoir aucun problème à déterminer les tâches ci-dessus dans Excel en une semaine. oh ils parlent maintenant de réseaux de neurones donc je dois m'inscrire à l'autre classe, etc.) TL; DR. Les outils ne représentent que 1% du problème que vous rencontrez. Avec votre expérience, vous ne devriez avoir aucun problème à déterminer les tâches ci-dessus dans Excel en une semaine.

Huy Truong
la source