Je me considérerais comme un compagnon scientifique des données. Comme beaucoup (je pense), j'ai réalisé mes premiers graphiques et mes premières agrégations au lycée et au collège, en utilisant Excel. Après mes études universitaires, mes études supérieures et environ 7 ans d'expérience professionnelle, j'ai rapidement découvert ce que je considère comme des outils plus avancés, tels que SQL, R, Python, Hadoop, LaTeX, etc.
Nous interviewons pour un poste de data scientist et un candidat se présente comme un "senior data scientist" (un terme très en vogue ces temps-ci) avec plus de 15 ans d'expérience. Lorsqu'on lui a demandé quel était son jeu d'outils préféré, il a répondu qu'il s'agissait d'Excel.
J'ai pris cela comme une preuve qu'il n'était pas aussi expérimenté que son CV le prétendrait, mais je n'en étais pas sûr. Après tout, ce n'est pas parce que ce n'est pas l'outil que je préfère que ce n'est pas les autres. Les scientifiques expérimentés utilisent-ils Excel? Pouvez-vous supposer un manque d'expérience de la part de quelqu'un qui utilise principalement Excel?
\LaTeX{}
je ne les engagerais pas. jeRéponses:
La plupart des non-techniciens utilisent souvent Excel pour remplacer une base de données. Je pense que c'est faux mais tolérable. Cependant, une personne supposément expérimentée en analyse de données ne peut tout simplement pas utiliser Excel comme outil principal (à l’exception de la tâche évidente consistant à examiner les données pour la première fois). C’est parce que Excel n’a jamais été conçu pour ce type d’analyse et qu’il est donc extrêmement facile de faire des erreurs dans Excel Excel aggrave encore plus la situation.)
Pour résumer ce qu'Excel n'a pas et est indispensable pour toute analyse:
Davantage de ressources:
Groupe d'intérêt européen sur les risques liés aux feuilles de calcul - Histoires d'horreur
Vous ne devriez pas utiliser un tableur pour un travail important (je le pense)
Microsoft Excel pourrait être le logiciel le plus dangereux sur la planète
Détruisez vos données en utilisant Excel avec ce truc étrange!
Les feuilles de calcul Excel sont difficiles à obtenir
la source
df.plot()
) et exporter votre sortie au format csv (df.to_csv('output.csv')
). N'oubliez pas que les analyses de données nécessitent généralement beaucoup plus que le filtrage et le traçage. Par conséquent, l'accent doit être mis sur l'exactitude. Vous devez donc dissocier la présentation de l'analyse. Effectuez votre analyse en Python (ou dans un autre langage), partagez votre sortie en csv si vous le souhaitez.J'ai rencontré des scientifiques de données expérimentés qui utilisent Excel, soit en raison de leurs préférences, soit en raison des spécificités de leur entreprise et de leur environnement informatique (par exemple, de nombreuses institutions financières utilisent Excel comme outil principal, au moins pour la modélisation). Cependant, je pense que les scientifiques de données les plus expérimentés reconnaissent la nécessité d'utiliser des outils optimaux pour des tâches particulières et adhèrent à cette approche.
Non tu ne peux pas. Ceci est le corollaire de mes pensées mentionnées ci-dessus. La science des données n'implique pas automatiquement le Big Data. Il existe de nombreux travaux sur la science des données qu'Excel peut très bien gérer. Cela dit, si un scientifique (même expérimenté) en matière de données n'a pas la connaissance (du moins, de base) des outils modernes de la science des données, y compris ceux axés sur le Big Data, c'est un peu inquiétant. En effet, l’expérimentation est profondément enracinée dans la nature de la science des données, l’analyse exploratoire des données constituant un élément essentiel, voire crucial. Par conséquent, une personne qui n’a pas envie d’explorer d’autres outils de son domaine pourrait se classer plus bas parmi les candidats parmi les candidats les mieux placés pour occuper un poste dans le domaine des sciences de la donnée nouveau matériel, plus,
Par conséquent, en conclusion, je pense que la meilleure réponse qu'un scientifique expérimenté pourrait avoir à une question concernant son outil préféré est la suivante: Mon outil préféré est l'outil optimal, celui qui convient le mieux à la tâche à accomplir.
la source
Je pense que la plupart des gens répondent sans avoir une bonne connaissance d'Excel. Excel (depuis 2010) a une base de données en colonne colonnaire [multi-tables], appelée power pivot (qui permet la saisie à partir de csv / bases de données, etc.), lui permettant de stocker des millions de lignes (elle ne doit pas être chargée dans un tableur). . Il dispose également d'un outil ETL appelé requête d'interrogation permettant de lire les données à partir de diverses sources (y compris hadoop). Et il dispose d'un outil de visualisation (Power View & Power Map). Data Science effectue une agrégation et une analyse top-n à laquelle power pivot excelle. Ajoutez à cela la nature interactive de ces outils - tout utilisateur peut facilement faire glisser une dimension sur laquelle diviser les résultats et j'espère que vous pourrez voir les avantages. Alors oui, vous ne pouvez pas apprendre la machine,
la source
Dans son livre Data Smart, John Foreman résout des problèmes courants liés à la science des données (clustering, baies naïves, méthodes d'ensemble, ...) à l'aide d'Excel. En effet, il est toujours bon d’avoir une connaissance de Python ou de R, mais je suppose qu’Excel peut encore faire le gros du travail!
la source
Je suis surpris de voir combien de personnes sont attachées au froid de la profession plutôt qu'au travail à accomplir. Excel est un excellent outil, avec Powerpivot gratuit, Powerquery, il peut faire beaucoup. (ceux-ci ne sont pas disponibles sous OS X). Et si vous connaissez VBA, vous pouvez faire de belles choses. Et puis, si vous ajoutez des connaissances supplémentaires sur python, vous pouvez combiner les toutes premières étapes d'extraction et de manipulation de données avec python, puis utiliser Excel, en particulier si vous êtes une personne visuelle. Avec Excel, vous pouvez vraiment inspecter les données agrégées avant d’intégrer d'autres processus ou visualisations. C'est un outil indispensable.
la source
Excel n'autorise que de très petites données et ne contient aucun élément suffisamment utile et flexible pour l'apprentissage automatique ou même le traçage. Tout ce que je ferais dans Excel, c’est de regarder un sous-ensemble de données pour un premier coup d’œil sur les valeurs afin d’être sûr de ne rien manquer de visible.
Ainsi, si son outil préféré est Excel, cela pourrait suggérer qu’il traite rarement de l’apprentissage automatique, des statistiques, de la taille de données plus importante ou de tout tracé avancé. Quelqu'un comme ça, je n’appellerais pas un scientifique des données. Bien sûr, les titres importent peu et cela dépend beaucoup de vos besoins.
Dans tous les cas, ne jugez pas par des déclarations d'expérience ou un CV. J'ai vu des CV et je connais les personnes qui se cachent derrière.
Ne présume pas. Testez-le! Vous devriez être assez bon pour mettre en place un test. Il a été démontré que les entretiens seuls sont presque inutiles pour déterminer les compétences (ils ne montrent que la personnalité). Organisez un test d’apprentissage supervisé très simple et laissez-le utiliser tous les outils qu’il souhaite.
Et si vous souhaitez d'abord sélectionner des personnes lors d'une interview, interrogez-les sur des informations très élémentaires mais importantes sur les statistiques ou sur l'apprentissage automatique. Quelque chose que chacun de vos employés actuels sait.
la source
Permettez-moi d’abord de préciser que je commence mon aventure dans la science des données en tant que programmeur et développeur de bases de données. Je ne suis pas un expert en science des données de 10 ans, ni un dieu de la statistique. Cependant, je travaille en tant que Data Scientist et de grands ensembles de données pour une entreprise qui travaille avec de grands clients dans le monde entier.
D'après mon expérience, les scientifiques utilisent tous les outils dont ils ont besoin pour faire le travail. Excel, R, SAS, Python et plus sont tous des outils dans une boîte à outils pour un bon scientifique. Les meilleurs peuvent utiliser une grande variété d’outils pour analyser et traiter des données.
Par conséquent, si vous comparez R à Python, vous vous trompez probablement dans le monde de la science des données. Un bon scientifique utilise les deux quand il est judicieux d’utiliser l’une sur l’autre. Ceci s'applique également à Excel.
Je pense qu'il est plutôt difficile de trouver quelqu'un qui ait l'expérience de tant d'outils et de langages différents, tout en étant excellent dans tous les domaines. Je pense également qu’il sera difficile de trouver des scientifiques spécialisés dans les données qui puissent non seulement programmer des algorithmes complexes, mais aussi savoir les utiliser du point de vue statistique.
La plupart des informaticiens avec lesquels j'ai travaillé se déclinent en deux versions. Ceux qui peuvent programmer et ceux qui ne peuvent pas. Je travaille rarement avec des scientifiques qui peuvent extraire des données en Python, les manipuler avec des Pandas, adapter un modèle aux données de R puis le présenter à la direction à la fin de la semaine.
Je veux dire, je sais qu'ils existent. J'ai lu de nombreux blogs sur la science des données développés par des personnes développant des scrappers Web, l'insérant dans Hadoop, le retirant en Python, programmant des choses complexes et exécutant l'application avec R pour démarrer. Ils existent. Ils sont dehors. Je n'ai tout simplement pas rencontré trop de personnes capables de faire tout cela. Peut-être que c'est juste mon domaine si?
Alors, cela signifie-t-il que nous nous spécialisons dans un seul problème? Non. Beaucoup de mes amis se spécialisent dans une seule langue principale et la tuent. Je connais beaucoup de gars de données qui ne connaissent que R et le tuent. Je connais également de nombreuses personnes qui utilisent simplement Excel pour analyser des données, car c’est la seule chose que la plupart des non-spécialistes en informatique peuvent ouvrir et utiliser (en particulier dans les entreprises B2B). La question à laquelle vous devez vraiment répondre est de savoir si cette chose est la seule chose dont vous avez besoin pour ce poste? Et surtout, peuvent-ils apprendre de nouvelles choses?
PS
Data Science ne se limite pas à "BIG DATA" ou à NoSQL.
la source
Excel peut être un excellent outil pour l’analyse exploratoire de données. Il dépend vraiment de vos besoins et, bien sûr, a ses limites, comme tout outil, mais Excel mérite sans aucun doute une place dans le temple de la renommée de la science des données.
Il convient de rappeler que, dans la pratique, la plupart des utilisateurs exploreront néanmoins un ensemble de données fortement réduit (créé à partir d'une requête SQL).
Excel est un outil puissant pour explorer les données lorsque vous utilisez l’objet "table" en combinaison avec des tableaux croisés dynamiques. La visualisation s’effectue en 1 à 2 clics maximum et de nombreux graphiques Excel dans PowerPoint sont superbes, à contexte informatique scientifique. La nature interactive signifie que vous pouvez explorer rapidement.
L’objet "table" présente les avantages suivants: lors de la transformation ultérieure des données dans Excel pour vous permettre d’explorer de nouvelles distributions, les tableaux croisés dynamiques mémorisent tous la variable.
Là où Excel est faible, c'est que la liste de formules est sans doute limitante, par exemple, une instruction de casse SQL ou une déclaration python est beaucoup plus flexible qu'une chaîne infinie de fonctions if.
Cela dépend vraiment de vos besoins, mais Excel mérite vraiment une place dans le temple de la renommée de la science des données.
Anecdote intéressante, l’équipe qui travaille sur l’algorithme de flux de nouvelles de Facebook joue régulièrement avec Excel et de nombreuses feuilles de calcul.
la source
J'enseigne un cours d'analyse commerciale qui inclut SQL et Excel. J'enseigne dans une école de commerce afin que mes étudiants ne soient pas les plus techniquement capables, c'est pourquoi je n'ai pas utilisé quelque chose comme R, Pandas ou Weka. Cela étant dit, Excel est un outil assez puissant pour l’analyse de certaines données. Il tire le meilleur parti de cette puissance de par sa capacité à servir de serveur frontal à SQL Server Analysis Services (un composant de SQL Server pour l'analyse de données) à l'aide du complément Data Mining.
SSAS vous permet de construire des arbres de décision, d'effectuer des régressions linéaires et logistiques et même de créer des réseaux bayésiens ou neuronaux. J'ai constaté que l'utilisation d'Excel en tant que frontal était une approche moins menaçante pour ce type d'analyse, puisqu'ils utilisaient tous Excel auparavant. Pour utiliser SSAS sans Excel, vous devez utiliser une version spécialisée de Visual Studio. Ce n'est pas l'outil le plus convivial qui soit. Lorsque vous le combinez avec quelques autres outils Excel tels que Power Query et Power Pivot, vous pouvez effectuer une analyse assez sophistiquée des données.
Full Disclosure, je ne vais probablement pas l’utiliser de nouveau lorsque j’enseignerai la nouvelle version du cours l’année prochaine (nous le scindons en deux afin que l’on puisse se concentrer davantage sur l’analyse des données). Mais c’est simplement parce que l’université a pu obtenir suffisamment de licences pour Alteryx, qui sont encore plus faciles à utiliser et plus puissantes, mais coûtent de 4 à 85 000 $ / utilisateur / an si vous ne pouvez pas l’obtenir gratuitement d’une manière ou d’une autre. Dites ce que vous voulez à propos d'Excel, mais il bat ce point de prix.
la source
Excel peut être un excellent outil. Bien sûr, selon ce que vous faites, cela pourrait ne pas convenir à la loi, mais si c'était le cas, il serait presque stupide de la rejeter. Bien que cela prenne un certain temps pour configurer votre pipeline, dans Excel, vous pouvez très bien lancer: une interface utilisateur intégrée, une extensibilité facile via VBA, même avec Python (par exemple, https://www.xlwings.org ). Ce n'est peut-être pas idéal pour des choses comme le contrôle de version, mais il existe des moyens de le faire fonctionner avec Git (par exemple, https://www.xltrail.com/blog/auto-export-vba-commit-hook ).
la source
Cette personne travaille avec «Big Data» et utilise principalement Excel? Sérieusement?!?! Excel ne traite que 1 048 576 lignes de données dans une seule feuille de calcul. Pour les ensembles de données au-delà, un plugin est nécessaire. De plus, les tableaux croisés dynamiques dans Excel imposent des restrictions sévères à l'analyse pouvant être effectuées à l'aide de ceux-ci.
Quels types de tâches d'analyse de données devraient être exécutés dans le travail pour lequel vous recrutez?
Je vous suggère de mener des entretiens comprenant des tests du type de tâches qui devront être effectuées dans le travail en question. Sans violer la confidentialité, la confidentialité ou la protection des données, la tâche de programmation ou d'analyse de données définie dans le cadre de l'entretien doit inclure un sous-ensemble (pseudonymisé) d'un ensemble de données pertinent pour le poste pour lequel il est interrogé. Sinon, vous risquez de recruter une personne qui est formulée dans un entretien basé sur une conversation mais qui n'est pas réellement compétente pour effectuer le travail.
la source