Ayant récemment obtenu mon doctorat en statistique, je cherchais depuis quelques mois un travail dans le domaine des statistiques. Presque toutes les entreprises que j'ai considérées affichaient une offre d'emploi portant le titre " Data Scientist ". En fait, on avait l'impression que les titres d'emploi de chercheur en statistique ou de statisticien étaient révolus . Etre un informaticien avait-il vraiment remplacé ce qu'était un statisticien ou les titres étaient-ils synonymes, me demandais-je?
Eh bien, la plupart des qualifications pour les emplois semblaient être des choses qui pourraient être qualifiées sous le titre de statisticien. La plupart des emplois demandaient un doctorat en statistique ( ), la plupart des connaissances requises du modèle expérimental ( ), de la régression linéaire et de anova ( ), des modèles linéaires généralisés ( ) et d’autres méthodes à plusieurs variables telles que la PCA ( ) , ainsi que des connaissances dans un environnement informatique statistique tel que R ou SAS ( ). On dirait qu’un scientifique des données n’est en réalité qu’un nom de code pour un statisticien.✓ ✓ ✓ ✓ ✓ ✓
Cependant, chaque interview à laquelle je suis allé commençait par la question: "Alors, connaissez-vous les algorithmes d'apprentissage automatique?" Le plus souvent, je me suis retrouvé dans l'obligation de répondre à des questions sur le Big Data, l'informatique haute performance et des sujets relatifs aux réseaux de neurones, au CART, aux machines à vecteurs de support, aux arbres boosters, aux modèles non supervisés, etc. Bien sûr, je suis convaincu questions statistiques au cœur, mais à la fin de chaque entretien, je ne pouvais pas m'empêcher de partir avec le sentiment de savoir de moins en moins ce qu'est un scientifique des données.
Je suis un statisticien, mais suis-je un informaticien? Je travaille sur des problèmes scientifiques alors je dois être scientifique! Et aussi je travaille avec des données, donc je dois être un informaticien! Et selon Wikipedia, la plupart des universitaires seraient d'accord avec moi ( https://en.wikipedia.org/wiki/Data_science , etc.)
Bien que l'utilisation du terme "science des données" ait explosé dans les environnements professionnels, de nombreux universitaires et journalistes ne font aucune distinction entre la science des données et les statistiques.
Mais si je participe à toutes ces entrevues pour occuper un poste de spécialiste des données, pourquoi a-t-on l'impression de ne jamais me poser de questions statistiques?
Après ma dernière entrevue, je voulais vraiment faire appel à un bon scientifique et j'ai recherché des données pour résoudre ce problème (hé, je suis un scientifique, après tout). Cependant, après de nombreuses recherches Google plus tard, je me suis retrouvé là où j'ai commencé à me sentir comme si je me débattais encore une fois avec la définition de ce qu'est un scientifique des données. Je ne savais pas ce qu'était exactement un scientifique, car il y avait tellement de définitions, ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) mais il semblait que tout le monde me disait que je voulais en être un:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... la liste est longue.
En fin de compte, ce que j’ai compris, c’est «qu’est un informaticien», c’est une question très difficile à répondre. Heck, il y a eu deux mois entiers à Amstat où ils ont consacré du temps à tenter de répondre à cette question:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Pour le moment, je dois être un statisticien sexy pour être un spécialiste des données, mais j'espère que la communauté validée par la croix pourra peut-être nous éclairer un peu et m'aider à comprendre ce que cela signifie. Tous les statisticiens ne sont-ils pas des scientifiques de données?
(Edit / Update)
Je pensais que cela pourrait pimenter la conversation. Je viens de recevoir un courrier électronique de l'American Statistical Association au sujet d'un poste proposé par Microsoft à la recherche d'un scientifique. Voici le lien: Data Scientist Position . Je pense que cela est intéressant car le rôle du poste touche beaucoup de traits spécifiques dont nous avons parlé, mais je pense que bon nombre d’entre eux exigent des connaissances très rigoureuses en statistiques et contredisent bon nombre des réponses données ci-dessous. Au cas où le lien disparaîtrait, voici les qualités que Microsoft recherche chez un informaticien:
Exigences de base et compétences:
Expérience du domaine d'activité avec Analytics
- Doit avoir une expérience dans plusieurs domaines commerciaux pertinents dans l'utilisation des compétences de pensée critique pour conceptualiser des problèmes métier complexes et leurs solutions à l'aide d'analyses avancées dans des ensembles de données métier à grande échelle et dans le monde réel
- Le candidat doit être capable de gérer de manière indépendante des projets analytiques et d’aider nos clients internes à comprendre les résultats et à les traduire en actions bénéfiques pour leur entreprise.
Modélisation prédictive
- Expérience dans tous les secteurs de la modélisation prédictive
- Définition du problème métier et modélisation conceptuelle avec le client pour établir des relations importantes et définir la portée du système
Statistiques / économétrie
- Analyse de données exploratoire pour les données continues et catégorielles
- Spécification et estimation d'équations de modèle structurelles pour le comportement des entreprises et des consommateurs, les coûts de production, la demande de facteurs, le choix discret et d'autres relations technologiques, si nécessaire
- Techniques statistiques avancées pour analyser des données continues et catégoriques
- Analyse de séries chronologiques et mise en œuvre de modèles de prévision
- Connaissance et expérience du travail avec des problèmes à variables multiples
- Capacité à évaluer l'exactitude des modèles et à effectuer des tests de diagnostic
- Capacité à interpréter des statistiques ou des modèles économiques
- Connaissance et expérience de la construction de simulations à événements discrets et de modèles de simulation dynamiques
Gestion de données
- Familiarité avec l'utilisation de T-SQL et de l'analyse pour la transformation de données et l'application de techniques d'exploration de données exploratoires pour de très grands ensembles de données du monde réel
- Attention portée à l'intégrité des données, y compris la redondance des données, la précision des données, les valeurs anormales ou extrêmes, les interactions de données et les valeurs manquantes.
Compétences en communication et collaboration
- Travailler de manière indépendante et capable de travailler avec une équipe de projet virtuelle qui recherchera des solutions innovantes pour résoudre des problèmes complexes.
- Collaborer avec des partenaires, appliquer des compétences de pensée critique et mener des projets analytiques de bout en bout
- Excellentes aptitudes à la communication verbale et écrite
- Visualisation des résultats analytiques sous une forme utilisable par un ensemble divers de parties prenantes
Progiciels
- Progiciels statistiques / économétriques avancés: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Exploration, visualisation et gestion des données: outils T-SQL, Excel, PowerBI et équivalents
Qualifications:
- Minimum de 5 ans d'expérience pertinente requise
- Un diplôme d'études supérieures dans un domaine quantitatif est souhaitable.
la source
Réponses:
Il y a quelques définitions humoristiques qui n'ont pas encore été données:
J'aime celui-ci, car il joue bien sur l'angle plus hype-que-substance.
De même, cela riffs sur la côte ouest de tout cela.
Personnellement, je trouve la discussion (en général et ici) un peu ennuyeuse et répétitive. Quand je pensais à ce que je voulais — peut-être il y a un quart de siècle ou plus — je voulais un analyste quantitatif. C’est toujours ce que je fais (et que j’aime!) Et cela recouvre en grande partie ce qui a été donné ici dans diverses réponses.
(Remarque: il existe une source plus ancienne pour citer deux mais je ne la trouve pas pour le moment.)
la source
I find the discussion (in general, and here) somewhat boring and repetitive
et vains discours de bagatelles ou de nouveaux mots à la mode, ajouterais-je. Je ne peux toujours pas faire la différence entre les scientifiques de données, les scientifiques chrétiens et les scientifiques de données.Les gens définissent la science des données différemment, mais je pense que la partie commune est:
Contrairement à son nom, il s'agit rarement d'une "science". En d’autres termes, dans la science des données, l’accent est mis sur les résultats pratiques (comme en ingénierie), et non sur les preuves, la pureté mathématique ou la rigueur caractéristiques de la science universitaire. Les choses doivent fonctionner, et il y a peu de différence si elles sont basées sur un document académique, l'utilisation d'une bibliothèque existante, votre propre code ou un piratage impromptu.
Le statisticien n’est pas nécessaire en tant que programmeur (peut utiliser un stylo et du papier et un logiciel dédié). En outre, certains appels en sciences du traitement des données n’ont rien à voir avec les statistiques. Par exemple, il s’agit de l’ingénierie des données, comme le traitement des mégadonnées, même si les calculs les plus avancés sont calculés en moyenne (par contre, je n’appellerais pas cette activité "la science des données"). De plus, la "science des données" fait fureur, de sorte que les emplois liés de manière tangentielle utilisent ce titre - pour attirer les candidats ou créer le moi des travailleurs actuels.
J'aime la taxonomie de la réponse de Michael Hochster à Quora :
En ce sens, le scientifique de type A est un statisticien capable de programmer. Mais, même pour une partie quantitative, il peut y avoir des personnes ayant plus de connaissances en informatique (par exemple, apprentissage automatique) que des statistiques habituelles, ou des personnes se concentrant par exemple sur la visualisation de données.
Et le diagramme de Venn de Data Science (ici: piratage ~ programmation):
voir aussi les autres diagrammes de Venn ( ceci et cela ). Ou même un tweet , tout en humour, montrant une liste équilibrée des compétences et activités typiques d'un scientifique de données:
Voir aussi ce post: Data scientist - statisticien, programmeur, consultant et visualiseur? .
la source
Il existe un certain nombre d'enquêtes dans le domaine de la science des données. J'aime celui- ci, car il tente d'analyser les profils des personnes qui occupent des emplois dans le domaine de la science des données. Au lieu d'utiliser des preuves anecdotiques ou les préjugés de l'auteur, ils utilisent des techniques de science des données pour analyser leur ADN.
Il est assez révélateur d'examiner les compétences répertoriées par les experts en données. Notez que les 20 compétences principales contiennent beaucoup de compétences informatiques.
MISE À JOUR:
Si vous faites un doctorat, vous êtes probablement déjà un scientifique, surtout si vous avez publié des articles et mené des recherches actives. Vous n'avez cependant pas besoin d'être un scientifique pour être un scientifique. Un doctorat est exigé dans certaines entreprises, comme Walmart (voir ci-dessous), mais les scientifiques spécialisés dans les données possèdent généralement un diplôme de licence et une maîtrise, comme le montrent les exemples ci-dessous.
Comme vous pouvez le voir dans le tableau ci-dessus, vous devrez probablement posséder de bonnes compétences en programmation et en manipulation de données. En outre, la science des données est souvent associée à un certain niveau, souvent "approfondi", d'expertise en apprentissage automatique. Si vous avez un doctorat en statistiques, vous pouvez certainement vous appeler un informaticien. Cependant, les doctorats en informatique des grandes écoles peuvent être plus compétitifs que les diplômés des statistiques, car ils possèdent peut-être de solides connaissances en statistiques appliquées complétées par de solides compétences en programmation, une combinaison recherchée par les employeurs. Pour les contrer, vous devez acquérir de solides compétences en programmation afin d'être très compétitif. Ce qui est intéressant, c’est que généralement tous les doctorants en statistique ont une certaine expérience en programmation, mais dans le domaine de la science des données, les exigences sont souvent beaucoup plus élevées que cela,
Pour moi, l’avantage d’avoir un doctorat en statistiques réside dans le problème décrit dans le reste de l’expression "un homme à tout faire" qui est généralement abandonné: "un maître de rien". C'est bien d'avoir des gens qui connaissent un peu tout, mais je cherche toujours des gens qui savent aussi quelque chose de très profond, que ce soit les statistiques ou l'informatique, ce n'est pas si important. Ce qui compte, c’est que le gars soit capable d’aller au fond des choses, c’est une qualité pratique lorsque vous en avez besoin.
L'enquête répertorie également les meilleurs employeurs de data scientistes. Microsoft est apparemment au top, ce qui m'a surpris. Si vous souhaitez avoir une meilleure idée de ce qu'ils recherchent, il est utile de rechercher LinkeIn avec «science des données» dans la section Emplois. Vous trouverez ci-dessous deux extraits des travaux de MS et Walmart à LinkedIn pour faire valoir un point.
Microsoft Data Scientist
Notez que la connaissance des paquets de statistiques n’est qu’un atout, mais que vous devez posséder d’excellentes compétences en programmation en Java.
Walmart, Data Scientist
Ici, le doctorat est préféré, mais seule la majeure en informatique est nommée. L'informatique distribuée avec Hadoop ou Spark est probablement une compétence inhabituelle pour un statisticien, mais certains physiciens théoriciens et mathématiciens appliqués utilisent des outils similaires.
MISE À JOUR 2:
"Il est déjà temps de supprimer le titre" Data Scientist "", a déclaré Thomas Davenport, co-rédacteur de l'article paru dans le Harvard Business Review en 2012 intitulé "Data Scientist: le métier le plus sexy du 21e siècle" .
la source
Quelque part j'ai lu ceci (EDIT: Josh Will expliquant son tweet ):
Cette citation peut être brièvement expliquée par ce processus de science des données . Le premier aspect de ce schéma ressemble à "bon, où est la partie de la programmation?", Mais si vous avez des tonnes de données, vous devez pouvoir les traiter.
la source
J'ai écrit plusieurs réponses et chaque fois, elles ont été longues et j'ai finalement décidé de monter sur une tribune. Mais je pense que cette conversation n’a pas complètement exploré deux facteurs importants:
La science dans la science des données. Une approche scientifique est une approche dans laquelle vous essayez de détruire vos propres modèles, théories, fonctionnalités, choix de technique, etc., et vous ne pouvez accepter que vos résultats puissent vous être utiles. C'est un état d'esprit et bon nombre des meilleurs scientifiques de données que j'ai rencontrés ont une formation scientifique (chimie, biologie, ingénierie).
La science des données est un vaste domaine. Un bon résultat en science des données implique généralement une petite équipe de data scientists, chacun avec sa propre spécialité. Par exemple, un membre de l'équipe est plus rigoureux et plus statistique, un autre est un meilleur programmeur ayant une formation en ingénierie et un autre est un consultant expérimenté en matière de gestion. Tous les trois sont prompts à apprendre le sujet, et tous les trois sont curieux et veulent trouver la vérité - même douloureuse - et faire ce qui est dans le meilleur intérêt du client (interne ou externe), même si le client ne le fait pas. t comprendre.
L'engouement de ces dernières années - je pense qu'il est aujourd'hui en train de s'estomper - est de recruter des informaticiens qui maîtrisent les technologies de cluster (écosystème Hadoop, etc.) et qui disent que c'est le Data Scientist idéal. Je pense que c'est ce que le PO a rencontré et je lui conseillerais de renforcer ses forces en matière de rigueur, de justesse et de réflexion scientifique.
la source
Je pense que Bitwise couvre la majeure partie de ma réponse, mais je vais ajouter mon 2c.
Non, je suis désolé, mais un statisticien n'est pas un informaticien, du moins d'après la façon dont la plupart des entreprises définissent ce rôle aujourd'hui. Notez que la définition a changé au fil du temps et qu'un des défis des praticiens est de s'assurer de leur pertinence.
Je partagerai quelques raisons communes expliquant pourquoi nous refusons les candidats aux postes de "Data Scientist":
Bien sûr, pour un rôle junior, vous ne pouvez pas avoir tout ce qui précède. Mais combien de ces compétences pouvez-vous vous permettre de rater et de récupérer au travail?
Enfin, pour clarifier les choses, la raison la plus courante de rejeter des non-statisticiens est précisément le manque de connaissances, même élémentaires, en statistiques. Et quelque part, il y a la différence entre un ingénieur de données et un informaticien. Néanmoins, les ingénieurs de données ont tendance à postuler pour ces rôles, car ils croient souvent que les "statistiques" ne sont que la moyenne, la variance et la distribution normale. Nous pouvons donc ajouter quelques mots à la mode statistiques pertinents mais effrayants dans les descriptions de poste afin de clarifier ce que nous entendons par "statistiques" et d’éviter la confusion.
la source
Permettez-moi d'ignorer le battage médiatique et les mots à la mode. Je pense que "Data Scientist" (ou ce que vous voulez appeler) est une chose réelle qui se distingue d'un statisticien. Il existe de nombreux types de postes qui sont en fait des experts en données, mais ne portent pas ce nom. Un exemple est celui des personnes travaillant dans le domaine de la génomique.
À mon avis, un scientifique des données est une personne qui possède les compétences et l'expertise pour concevoir et exécuter des recherches sur de grandes quantités de données complexes (par exemple, hautement dimensionnelles dans lesquelles les mécanismes sous-jacents sont inconnus et complexes).
Ça signifie:
la source
Toutes les bonnes réponses, cependant, dans mon expérience de recherche d’emploi, j’ai noté que le terme «informaticien» avait été confondu avec «analyste junior de données» dans l’esprit des recruteurs avec lesquels j’étais en contact. Ainsi, beaucoup de gentils gens sans expérience des statistiques, mis à part ce cours d’introduction d’un trimestre qu’ils ont suivi il ya quelques années, s’appellent maintenant eux-mêmes des spécialistes des données. Avec une formation en informatique et des années d'expérience en tant qu'analyste de données, j'ai fait un doctorat en statistique plus tard dans ma carrière en pensant que cela me permettrait de me démarquer de la masse, je me suis retrouvé dans une foule inattendue de "scientifiques de données". ". Je pense que je pourrais revenir à "statisticien"!
la source
Je suis un employé débutant, mais mon titre est "Data Scientist". Je pense que la réponse de Bitwise est une description pertinente de ce pour quoi j'ai été embauché, mais j'aimerais ajouter un autre point en fonction de mon expérience quotidienne au travail:
La science est un processus d'enquête. Lorsque les données sont le moyen par lequel cette enquête est faite, la science des données est en cours. Cela ne signifie pas que quiconque expérimente ou fait de la recherche de données est nécessairement un informaticien, de la même manière que tous ceux qui expérimentent ou font de la recherche avec du câblage ne sont pas nécessairement des ingénieurs électriciens. Mais cela signifie que l'on peut acquérir suffisamment de formation pour devenir un "enquêteur de données" professionnel, de la même manière que l'on peut acquérir suffisamment de formation pour devenir un électricien professionnel. Cette formation est plus ou moins composée des points de la réponse de Bitwise, dont les statistiques sont une composante mais pas la totalité.
La réponse de Piotr est également un bon résumé de toutes les choses que je
dois faire sij'aimerais savoir comment faire une semaine donnée. Jusqu'à présent, mon travail a principalement consisté à réparer les dommages causés par d'anciens employés appartenant à la composante "Zone de danger" du diagramme de Venn.la source
Je me suis aussi récemment intéressé à la science des données en tant que carrière, et quand je pense à ce que j’ai appris sur le métier de la science des données par rapport aux nombreux cours sur les statistiques que j’ai suivis (et que j’ai apprécié!), J’ai commencé à penser aux scientifiques des données comme: informaticiens qui ont porté leur attention sur les données. En particulier, j'ai noté les principales différences suivantes. Notez cependant que les différences apparaissent d'humeur. Ce qui suit ne fait que refléter mes impressions subjectives, et je ne prétends pas généralité. Juste mes impressions!
En statistiques, vous vous souciez beaucoup des distributions, des probabilités et des procédures inférentielles (comment faire des tests d'hypothèses, qui sont les distributions sous-jacentes, etc.). D'après ce que j'ai compris, la science des données concerne le plus souvent la prévision, et les préoccupations relatives aux déclarations inférentielles sont dans une certaine mesure absorbées par les procédures informatiques, telles que la validation croisée.
Dans les cours de statistiques, je viens souvent de créer mes propres données ou d’utiliser des données prêtes à l’emploi qui sont disponibles dans un format plutôt épuré. Cela signifie qu’il s’agit d’un joli format rectangulaire, d’une feuille de calcul Excel ou de quelque chose du genre qui s’intègre parfaitement dans la RAM. Le nettoyage des données est sûrement impliqué, mais je n'ai jamais eu à extraire de données du Web, encore moins de bases de données à configurer pour pouvoir stocker une quantité de données qui ne rentre plus dans la RAM. Mon impression est que cet aspect informatique est beaucoup plus dominant dans la science des données.
Cela reflète peut-être mon ignorance de ce que font les statisticiens dans des emplois statistiques typiques, mais avant la science des données, je n'avais jamais pensé à intégrer des modèles à un produit plus vaste. Il y avait une analyse à faire, un problème statistique à résoudre, un paramètre à estimer, et c'est tout. En science des données, il semble que les modèles prédictifs soient souvent (bien que pas toujours) intégrés dans un ensemble plus vaste. Par exemple, vous cliquez quelque part et, en quelques millisecondes, un algorithme prédictif aura décidé de ce qui sera affiché. Ainsi, alors que dans les statistiques, je me suis toujours demandé "quel paramètre pouvons-nous estimer et comment le faisons-nous avec élégance", il semble que dans la science des données, l'accent soit davantage mis sur "que pouvons-nous prédire qui pourrait être utile dans un produit de données" .
Encore une fois, ce qui précède n’essaye pas de donner une définition générale. Je ne fais que souligner les différences majeures que j'ai moi-même perçues. Je ne suis pas encore dans la science des données, mais j'espère faire la transition l'année prochaine. En ce sens, prenez mes deux sous avec un grain de sel.
la source
Je dis qu'un scientifique de données est un rôle dans lequel on crée des résultats lisibles pour l'homme pour les entreprises, en utilisant les méthodes permettant de rendre le résultat statistiquement solide (significatif).
Si une partie quelconque de cette définition n'est pas suivie, nous parlons d'un développeur, d'un vrai scientifique / statisticien ou d'un ingénieur de données.
la source
J'aime toujours aller à l'essentiel.
la source
La science des données est un mélange multidisciplinaire d'inférence de données, de développement d'algorithmes et de technologie permettant de résoudre des problèmes analytiquement complexes. Mais en raison de la pénurie de scientifiques des données, une carrière dans ce domaine peut réellement créer de nombreuses opportunités. Cependant, les organisations recherchent des professionnels certifiés de SAS, du DASCA ( Data Science Council of America ), de Hortonworks, etc. J'espère que ce sera une bonne information!
la source
Les scientifiques de données possèdent de très bonnes compétences en développement Python, MySQL et Java.
Ils ont une très bonne compréhension des fonctions analytiques, très bien en mathématiques, en statistiques, en fouille de données, en analyse prédictive, ainsi qu’en une très bonne connaissance des langages de codage tels que Python et R.
Actuellement, beaucoup de scientifiques de données ont leur doctorat. ou leur maîtrise, selon la recherche, environ 8% seulement ont simplement un baccalauréat, alors c'est beaucoup plus approfondi.
Construire des modèles statistiques qui prennent des décisions basées sur des données. Chaque décision peut être difficile, par exemple bloquer le rendu d'une page, ou souple, par exemple affecter un score pour le caractère malveillant d'une page, utilisée par les systèmes descendants ou les humains.
Réaliser des expériences de causalité qui tentent d’attribuer la cause fondamentale d’un phénomène observé. Cela peut être fait en concevant des expériences A / B ou, s’il n’est pas possible, d’appliquer une approche épidémiologique au problème, par exemple @ le modèle causal de Rubin
Identifier de nouveaux produits ou fonctionnalités résultant du déverrouillage de la valeur des données; être un leader d'opinion sur la valeur des données. Un bon exemple à cet égard est la fonctionnalité de recommandations de produits proposée par Amazon pour la première fois à un public de masse.
la source
Pour répondre à votre question "Qu'est-ce qu'un scientifique de données?" Il peut être intéressant de connaître la différence entre un scientifique de données et un mécanicien de données, comme indiqué dans http://sites.temple.edu/deepstat/data-scientist-and-data-mechanic/.
la source