Les scientifiques de données utilisent-ils Excel?

37

Je me considérerais comme un compagnon scientifique des données. Comme beaucoup (je pense), j'ai réalisé mes premiers graphiques et mes premières agrégations au lycée et au collège, en utilisant Excel. Après mes études universitaires, mes études supérieures et environ 7 ans d'expérience professionnelle, j'ai rapidement découvert ce que je considère comme des outils plus avancés, tels que SQL, R, Python, Hadoop, LaTeX, etc.

Nous interviewons pour un poste de data scientist et un candidat se présente comme un "senior data scientist" (un terme très en vogue ces temps-ci) avec plus de 15 ans d'expérience. Lorsqu'on lui a demandé quel était son jeu d'outils préféré, il a répondu qu'il s'agissait d'Excel.

J'ai pris cela comme une preuve qu'il n'était pas aussi expérimenté que son CV le prétendrait, mais je n'en étais pas sûr. Après tout, ce n'est pas parce que ce n'est pas l'outil que je préfère que ce n'est pas les autres. Les scientifiques expérimentés utilisent-ils Excel? Pouvez-vous supposer un manque d'expérience de la part de quelqu'un qui utilise principalement Excel?

JHowIX
la source
La plupart des offres d'emploi en data science demandent des compétences spécifiques, telles que R, Hadoop, peu importe. Avez-vous oublié de mentionner cela dans votre annonce? À moins que votre nouveau Data Scientist ne travaille dans une bulle, il devra travailler avec l'équipe et probablement avec le logiciel de l'équipe standard ...
Spacedman
1
Eh bien, s'ils n'utilisent pas, \LaTeX{}je ne les engagerais pas. je
rigole
1
@Spacedman: J'ai fourni l'histoire dans un contexte anecdotique, mais je suis vraiment plus intéressé par le point de vue des gens sur Excel que par l'embauche de conseils. Notre équipe est libre d'utiliser les outils de son choix.
JHowIX
1
Oui, voir ici . Pour la blague avec facultés affaiblies, voir ici aussi .
Dirk Eddelbuettel
1
Quelles que soient les années spécifiées, je m'attendrais à une liste Pro / Con d'au moins trois outils fournie par un scientifique. Ils doivent montrer leur capacité à enquêter, peser les options et communiquer les résolutions. Même, ou surtout, dans une interview, je m'attendrais à voir un réel engagement et une capacité à se développer au-delà d'une question d'entrevue potentiellement intéressante, mais qui fait actuellement défaut.
Dave

Réponses:

28

La plupart des non-techniciens utilisent souvent Excel pour remplacer une base de données. Je pense que c'est faux mais tolérable. Cependant, une personne supposément expérimentée en analyse de données ne peut tout simplement pas utiliser Excel comme outil principal (à l’exception de la tâche évidente consistant à examiner les données pour la première fois). C’est parce que Excel n’a jamais été conçu pour ce type d’analyse et qu’il est donc extrêmement facile de faire des erreurs dans Excel Excel aggrave encore plus la situation.)

Pour résumer ce qu'Excel n'a pas et est indispensable pour toute analyse:

  1. Reproductibilité. Une analyse de données doit être reproductible.
  2. Contrôle de version. Bon pour la collaboration et aussi pour la reproductibilité. Au lieu d'utiliser xls, utilisez csv (toujours très complexe et comporte de nombreux cas, mais les analyseurs syntaxiques csv sont assez bons de nos jours.)
  3. Essai. Si vous n'avez pas de test, votre code est cassé. Si votre code est cassé, votre analyse est pire qu'inutile.
  4. Maintenabilité.
  5. Précision. L'exactitude numérique, l'analyse précise de la date, entre autres, font vraiment défaut dans Excel.

Davantage de ressources:

Groupe d'intérêt européen sur les risques liés aux feuilles de calcul - Histoires d'horreur

Vous ne devriez pas utiliser un tableur pour un travail important (je le pense)

Microsoft Excel pourrait être le logiciel le plus dangereux sur la planète

Détruisez vos données en utilisant Excel avec ce truc étrange!

Les feuilles de calcul Excel sont difficiles à obtenir

Robert Smith
la source
Pour examiner les données et les analyser rapidement, existe-t-il des outils largement acceptés par les professionnels comme étant comparables mais meilleurs qu'Excel? Je suis un scientifique débutant dans le domaine des données, et j'utilise principalement SQL (Postgre), mais une solution comme Excel peut être plus rapide à utiliser si vous ne faites qu'essayer.
sudo
1
De plus, je dois me plaindre que CSV n'est pas une norme. Vous devez vraiment vous assurer que tout ce qui est ouvert est en accord avec ce qui l'a produit. OpenOffice le fait bien et vous permet de choisir de nombreuses options CSV lorsque vous chargez plutôt que de supposer quoi que ce soit à propos du format.
Sudo
@sudo Les outils dépendent du langage de programmation de votre choix, qui est principalement une préférence personnelle. Juste pour donner quelques exemples, R a toujours été un bon choix. Python est devenu de plus en plus populaire pour l’analyse de données au cours des dernières années. Julia est une nouvelle venue très prometteuse dans le domaine. La plupart des langages de programmation fournissent des bibliothèques matures qui vous donnent des structures (par exemple, des cadres de données) particulièrement adaptées à l'analyse de données et elles sont toutes meilleures qu'Excel. Le format CSV a été normalisé, mais certains détails sont mis en œuvre différemment, mais cela ne devrait pas être un gros problème dans votre travail quotidien.
Robert Smith
J'utilise Python pour le traitement léger, mais cela ne sert pas vraiment les objectifs d'Excel. Par exemple, dans Excel, vous pouvez utiliser des outils tels que le filtre automatique et les graphiques interactifs. Habituellement, je copie mes données sur un fichier CSV pour que mes supérieurs puissent les consulter dans Excel ou quelque chose du genre.
Sudo
@sudo Ensuite, vous voulez des pandas. Pandas fournit de nombreuses méthodes pour manipuler vos données. Cela inclut les sous-ensembles basés sur des index, des colonnes ou des conditions, ce qui est beaucoup plus flexible et puissant que le filtrage automatique. Ensuite, vous pouvez tracer le résultat ( df.plot()) et exporter votre sortie au format csv ( df.to_csv('output.csv')). N'oubliez pas que les analyses de données nécessitent généralement beaucoup plus que le filtrage et le traçage. Par conséquent, l'accent doit être mis sur l'exactitude. Vous devez donc dissocier la présentation de l'analyse. Effectuez votre analyse en Python (ou dans un autre langage), partagez votre sortie en csv si vous le souhaitez.
Robert Smith
15

Les scientifiques expérimentés utilisent-ils Excel?

J'ai rencontré des scientifiques de données expérimentés qui utilisent Excel, soit en raison de leurs préférences, soit en raison des spécificités de leur entreprise et de leur environnement informatique (par exemple, de nombreuses institutions financières utilisent Excel comme outil principal, au moins pour la modélisation). Cependant, je pense que les scientifiques de données les plus expérimentés reconnaissent la nécessité d'utiliser des outils optimaux pour des tâches particulières et adhèrent à cette approche.

Pouvez-vous supposer un manque d'expérience de la part de quelqu'un qui utilise principalement Excel?

Non tu ne peux pas. Ceci est le corollaire de mes pensées mentionnées ci-dessus. La science des données n'implique pas automatiquement le Big Data. Il existe de nombreux travaux sur la science des données qu'Excel peut très bien gérer. Cela dit, si un scientifique (même expérimenté) en matière de données n'a pas la connaissance (du moins, de base) des outils modernes de la science des données, y compris ceux axés sur le Big Data, c'est un peu inquiétant. En effet, l’expérimentation est profondément enracinée dans la nature de la science des données, l’analyse exploratoire des données constituant un élément essentiel, voire crucial. Par conséquent, une personne qui n’a pas envie d’explorer d’autres outils de son domaine pourrait se classer plus bas parmi les candidats parmi les candidats les mieux placés pour occuper un poste dans le domaine des sciences de la donnée nouveau matériel, plus,

Par conséquent, en conclusion, je pense que la meilleure réponse qu'un scientifique expérimenté pourrait avoir à une question concernant son outil préféré est la suivante: Mon outil préféré est l'outil optimal, celui qui convient le mieux à la tâche à accomplir.

Aleksandr Blekh
la source
5
Je ne reprocherais jamais à quelqu'un de ne pas connaître Hadoop, mais même dans de petites situations de données, je me sens comme si R était supérieur. Il existe tout simplement une multitude de choses que vous pouvez faire avec R que vous ne pouvez pas faire avec Excel. Cela me concerne, cet individu n’a pas "découvert" que dans ses 15 ans et plus
JHowIX
@JHowIX: Connaissez-vous le terme "assez bon"? Je suis aussi un grand fan de R et le préférerais à de nombreux outils, y compris Excel, tous les jours. Cependant, le fait que R puisse faire plus ne signifie pas qu'Excel (ou tout autre outil approprié pour une tâche) est inférieur dans un contexte de travail particulier. Ainsi, bien que votre préoccupation soit valide (je me réfère à cela en utilisant le mot "perturbant"), il se peut que la personne n’ait pas eu la possibilité / le besoin de le faire. Rappelez-vous que vous parlez de l'époque, de l'époque où R existait, mais que c'était surtout populaire dans les universités et que la science des données (appelée analyse de données ou autre) n'était pas aussi en vogue qu'aujourd'hui.
Aleksandr Blekh le
13

Je pense que la plupart des gens répondent sans avoir une bonne connaissance d'Excel. Excel (depuis 2010) a une base de données en colonne colonnaire [multi-tables], appelée power pivot (qui permet la saisie à partir de csv / bases de données, etc.), lui permettant de stocker des millions de lignes (elle ne doit pas être chargée dans un tableur). . Il dispose également d'un outil ETL appelé requête d'interrogation permettant de lire les données à partir de diverses sources (y compris hadoop). Et il dispose d'un outil de visualisation (Power View & Power Map). Data Science effectue une agrégation et une analyse top-n à laquelle power pivot excelle. Ajoutez à cela la nature interactive de ces outils - tout utilisateur peut facilement faire glisser une dimension sur laquelle diviser les résultats et j'espère que vous pourrez voir les avantages. Alors oui, vous ne pouvez pas apprendre la machine,

seanv507
la source
Intéressant. Je suis habitué à la lenteur et aux erreurs de Excel 1998-2008. Je dois essayer les plus récents.
Sudo
J'aimerais pouvoir approuver la réponse de seanv507 un million de fois. La plupart des réponses montrent que beaucoup de gens ne sont pas conscients de la puissance des versions les plus récentes d’Excel. Et notez que lorsque vous utilisez les nouveaux outils d'analyse de données (par exemple, Power query, Power pivot, DAX), vous n'êtes plus limité à 1 048 576 lignes de données et à de nombreuses autres limitations sans ces outils
maze55555
Les personnes sans expérience professionnelle n'utilisent pas Excel. Période. Et étant donné que les diplômés en commerce ne se lancent généralement pas dans la science des données, vous pouvez comprendre l’ignorance.
NoName
5

Dans son livre Data Smart, John Foreman résout des problèmes courants liés à la science des données (clustering, baies naïves, méthodes d'ensemble, ...) à l'aide d'Excel. En effet, il est toujours bon d’avoir une connaissance de Python ou de R, mais je suppose qu’Excel peut encore faire le gros du travail!

Anil Narassiguin
la source
2
En fait, quand j'ai lu le livre, j’ai été assez surpris de constater que vous pouviez faire tellement avec Excel. Et qu'il contenait des solveurs évolutifs et non linéaires intégrés! Un avantage non négligeable d'Excel est que votre travail, en particulier si vous êtes dans un code reproductible, est accessible à plus de personnes que le code R ou Python.
Victor Ma
5

Je suis surpris de voir combien de personnes sont attachées au froid de la profession plutôt qu'au travail à accomplir. Excel est un excellent outil, avec Powerpivot gratuit, Powerquery, il peut faire beaucoup. (ceux-ci ne sont pas disponibles sous OS X). Et si vous connaissez VBA, vous pouvez faire de belles choses. Et puis, si vous ajoutez des connaissances supplémentaires sur python, vous pouvez combiner les toutes premières étapes d'extraction et de manipulation de données avec python, puis utiliser Excel, en particulier si vous êtes une personne visuelle. Avec Excel, vous pouvez vraiment inspecter les données agrégées avant d’intégrer d'autres processus ou visualisations. C'est un outil indispensable.

Donatas Svilpa
la source
4

Excel n'autorise que de très petites données et ne contient aucun élément suffisamment utile et flexible pour l'apprentissage automatique ou même le traçage. Tout ce que je ferais dans Excel, c’est de regarder un sous-ensemble de données pour un premier coup d’œil sur les valeurs afin d’être sûr de ne rien manquer de visible.

Ainsi, si son outil préféré est Excel, cela pourrait suggérer qu’il traite rarement de l’apprentissage automatique, des statistiques, de la taille de données plus importante ou de tout tracé avancé. Quelqu'un comme ça, je n’appellerais pas un scientifique des données. Bien sûr, les titres importent peu et cela dépend beaucoup de vos besoins.

Dans tous les cas, ne jugez pas par des déclarations d'expérience ou un CV. J'ai vu des CV et je connais les personnes qui se cachent derrière.

Ne présume pas. Testez-le! Vous devriez être assez bon pour mettre en place un test. Il a été démontré que les entretiens seuls sont presque inutiles pour déterminer les compétences (ils ne montrent que la personnalité). Organisez un test d’apprentissage supervisé très simple et laissez-le utiliser tous les outils qu’il souhaite.

Et si vous souhaitez d'abord sélectionner des personnes lors d'une interview, interrogez-les sur des informations très élémentaires mais importantes sur les statistiques ou sur l'apprentissage automatique. Quelque chose que chacun de vos employés actuels sait.

Gerenuk
la source
2

Permettez-moi d’abord de préciser que je commence mon aventure dans la science des données en tant que programmeur et développeur de bases de données. Je ne suis pas un expert en science des données de 10 ans, ni un dieu de la statistique. Cependant, je travaille en tant que Data Scientist et de grands ensembles de données pour une entreprise qui travaille avec de grands clients dans le monde entier.

D'après mon expérience, les scientifiques utilisent tous les outils dont ils ont besoin pour faire le travail. Excel, R, SAS, Python et plus sont tous des outils dans une boîte à outils pour un bon scientifique. Les meilleurs peuvent utiliser une grande variété d’outils pour analyser et traiter des données.

Par conséquent, si vous comparez R à Python, vous vous trompez probablement dans le monde de la science des données. Un bon scientifique utilise les deux quand il est judicieux d’utiliser l’une sur l’autre. Ceci s'applique également à Excel.

Je pense qu'il est plutôt difficile de trouver quelqu'un qui ait l'expérience de tant d'outils et de langages différents, tout en étant excellent dans tous les domaines. Je pense également qu’il sera difficile de trouver des scientifiques spécialisés dans les données qui puissent non seulement programmer des algorithmes complexes, mais aussi savoir les utiliser du point de vue statistique.

La plupart des informaticiens avec lesquels j'ai travaillé se déclinent en deux versions. Ceux qui peuvent programmer et ceux qui ne peuvent pas. Je travaille rarement avec des scientifiques qui peuvent extraire des données en Python, les manipuler avec des Pandas, adapter un modèle aux données de R puis le présenter à la direction à la fin de la semaine.

Je veux dire, je sais qu'ils existent. J'ai lu de nombreux blogs sur la science des données développés par des personnes développant des scrappers Web, l'insérant dans Hadoop, le retirant en Python, programmant des choses complexes et exécutant l'application avec R pour démarrer. Ils existent. Ils sont dehors. Je n'ai tout simplement pas rencontré trop de personnes capables de faire tout cela. Peut-être que c'est juste mon domaine si?

Alors, cela signifie-t-il que nous nous spécialisons dans un seul problème? Non. Beaucoup de mes amis se spécialisent dans une seule langue principale et la tuent. Je connais beaucoup de gars de données qui ne connaissent que R et le tuent. Je connais également de nombreuses personnes qui utilisent simplement Excel pour analyser des données, car c’est la seule chose que la plupart des non-spécialistes en informatique peuvent ouvrir et utiliser (en particulier dans les entreprises B2B). La question à laquelle vous devez vraiment répondre est de savoir si cette chose est la seule chose dont vous avez besoin pour ce poste? Et surtout, peuvent-ils apprendre de nouvelles choses?

PS

Data Science ne se limite pas à "BIG DATA" ou à NoSQL.

Glen Swan
la source
Bonjour Glen, merci pour vos commentaires. Regardez le lien suivant. Il provient de Swami Chandrasekaran, qui a dirigé l’équipe Watson de IBM, ce qui en fait, à mon avis, un scientifique expérimenté. La programmation est la troisième chose qu'un scientifique en informatique doit savoir, derrière "Fundamentals" et Statistics. Selon sa feuille de route, une fois que vous savez programmer, vous avez 15% de la façon d’être un informaticien. Sur cette base, je suis peut-être en désaccord avec l’affirmation selon laquelle les vrais spécialistes des données ont une saveur «non programmée». nirvacana.com/ Thoughts
JHowIX
Eh bien, je dis seulement que basé sur l'expérience. La plupart des cours sur les statistiques et les sciences des données ne couvrent même pas les programmes autres que ceux dont vous avez besoin pour les programmes statistiques les plus courants. Pour cette raison, la plupart des gars que je rencontre dans le monde des statistiques ne sont pas bons en programmation. C'est comme une réflexion après coup lorsqu'ils entrent dans le monde réel et réalisent que cela aide.
Glen Swan
1

Excel peut être un excellent outil pour l’analyse exploratoire de données. Il dépend vraiment de vos besoins et, bien sûr, a ses limites, comme tout outil, mais Excel mérite sans aucun doute une place dans le temple de la renommée de la science des données.

Il convient de rappeler que, dans la pratique, la plupart des utilisateurs exploreront néanmoins un ensemble de données fortement réduit (créé à partir d'une requête SQL).

Excel est un outil puissant pour explorer les données lorsque vous utilisez l’objet "table" en combinaison avec des tableaux croisés dynamiques. La visualisation s’effectue en 1 à 2 clics maximum et de nombreux graphiques Excel dans PowerPoint sont superbes, à contexte informatique scientifique. La nature interactive signifie que vous pouvez explorer rapidement.

L’objet "table" présente les avantages suivants: lors de la transformation ultérieure des données dans Excel pour vous permettre d’explorer de nouvelles distributions, les tableaux croisés dynamiques mémorisent tous la variable.

Là où Excel est faible, c'est que la liste de formules est sans doute limitante, par exemple, une instruction de casse SQL ou une déclaration python est beaucoup plus flexible qu'une chaîne infinie de fonctions if.

Cela dépend vraiment de vos besoins, mais Excel mérite vraiment une place dans le temple de la renommée de la science des données.

Anecdote intéressante, l’équipe qui travaille sur l’algorithme de flux de nouvelles de Facebook joue régulièrement avec Excel et de nombreuses feuilles de calcul.

William Mahmood
la source
0

J'enseigne un cours d'analyse commerciale qui inclut SQL et Excel. J'enseigne dans une école de commerce afin que mes étudiants ne soient pas les plus techniquement capables, c'est pourquoi je n'ai pas utilisé quelque chose comme R, Pandas ou Weka. Cela étant dit, Excel est un outil assez puissant pour l’analyse de certaines données. Il tire le meilleur parti de cette puissance de par sa capacité à servir de serveur frontal à SQL Server Analysis Services (un composant de SQL Server pour l'analyse de données) à l'aide du complément Data Mining.

SSAS vous permet de construire des arbres de décision, d'effectuer des régressions linéaires et logistiques et même de créer des réseaux bayésiens ou neuronaux. J'ai constaté que l'utilisation d'Excel en tant que frontal était une approche moins menaçante pour ce type d'analyse, puisqu'ils utilisaient tous Excel auparavant. Pour utiliser SSAS sans Excel, vous devez utiliser une version spécialisée de Visual Studio. Ce n'est pas l'outil le plus convivial qui soit. Lorsque vous le combinez avec quelques autres outils Excel tels que Power Query et Power Pivot, vous pouvez effectuer une analyse assez sophistiquée des données.

Full Disclosure, je ne vais probablement pas l’utiliser de nouveau lorsque j’enseignerai la nouvelle version du cours l’année prochaine (nous le scindons en deux afin que l’on puisse se concentrer davantage sur l’analyse des données). Mais c’est simplement parce que l’université a pu obtenir suffisamment de licences pour Alteryx, qui sont encore plus faciles à utiliser et plus puissantes, mais coûtent de 4 à 85 000 $ / utilisateur / an si vous ne pouvez pas l’obtenir gratuitement d’une manière ou d’une autre. Dites ce que vous voulez à propos d'Excel, mais il bat ce point de prix.

James Endicott
la source
0

Excel peut être un excellent outil. Bien sûr, selon ce que vous faites, cela pourrait ne pas convenir à la loi, mais si c'était le cas, il serait presque stupide de la rejeter. Bien que cela prenne un certain temps pour configurer votre pipeline, dans Excel, vous pouvez très bien lancer: une interface utilisateur intégrée, une extensibilité facile via VBA, même avec Python (par exemple, https://www.xlwings.org ). Ce n'est peut-être pas idéal pour des choses comme le contrôle de version, mais il existe des moyens de le faire fonctionner avec Git (par exemple, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).

Bjoern Stiel
la source
-2

Cette personne travaille avec «Big Data» et utilise principalement Excel? Sérieusement?!?! Excel ne traite que 1 048 576 lignes de données dans une seule feuille de calcul. Pour les ensembles de données au-delà, un plugin est nécessaire. De plus, les tableaux croisés dynamiques dans Excel imposent des restrictions sévères à l'analyse pouvant être effectuées à l'aide de ceux-ci.

Quels types de tâches d'analyse de données devraient être exécutés dans le travail pour lequel vous recrutez?

Je vous suggère de mener des entretiens comprenant des tests du type de tâches qui devront être effectuées dans le travail en question. Sans violer la confidentialité, la confidentialité ou la protection des données, la tâche de programmation ou d'analyse de données définie dans le cadre de l'entretien doit inclure un sous-ensemble (pseudonymisé) d'un ensemble de données pertinent pour le poste pour lequel il est interrogé. Sinon, vous risquez de recruter une personne qui est formulée dans un entretien basé sur une conversation mais qui n'est pas réellement compétente pour effectuer le travail.

dac2002
la source
Personne n'a dit "Big Data". Ils ont dit «scientifique de données». Toutes les données ne sont pas des «données volumineuses». J'ai travaillé avec des scientifiques de données expérimentés qui utilisaient tous les logiciels R, Python, SQL et Excel sur un projet. Toutes les analyses de données ne sont pas programmatiques ou scriptées. Comme indiqué ailleurs, des spécifications de travail vagues => différents types de scientifiques de données.
smci