Statistiques + Informatique = Science des données? [fermé]

10

je veux devenir un scientifique des données . J'ai étudié les statistiques appliquées (science actuarielle), j'ai donc une grande expérience statistique (régression, processus stochastique, séries chronologiques, pour n'en citer que quelques-unes). Mais maintenant, je vais faire un master en informatique avec spécialisation en systèmes intelligents.

Voici mon plan d'études:

  • Apprentissage automatique
  • Apprentissage automatique avancé
  • Exploration de données
  • Logique floue
  • Systèmes de recommandation
  • Systèmes de données distribués
  • Cloud computing
  • Découverte de connaissances
  • L'intelligence d'entreprise
  • Récupération de l'information
  • Exploration de texte

À la fin, avec toutes mes connaissances statistiques et informatiques, puis-je m'appeler un data scientist? , ou ai-je tort?

Merci pour les réponses.

user3643160
la source
Cette question semble être hors sujet car elle concerne les conseils de carrière. Il a été prouvé que les conseils en matière de carrière débouchent sur des questions larges, orientées vers l’opinion ou parfois des questions extrêmement restreintes, dont la plupart n’aboutissent à aucun discours utile. Si vous n'êtes pas d'accord avec cette opinion, veuillez soulever la question de Data Science Meta .
asheeshr
En un mot, non. Data + Scientific Method = Data Science :-). Tout le reste n'est qu'une méthodologie pour y arriver
I_Play_With_Data

Réponses:

1

Je pense que vous êtes sur la bonne voie pour devenir un expert en données . Récemment, j'ai répondu à une question connexe ici sur Data Science StackExchange: https://datascience.stackexchange.com/a/742/2452 (faites attention à la définition que je mentionne ici, car elle répond essentiellement à votre question par elle-même, ainsi qu'à aspects de la pratique du génie logiciel et de l' application des connaissances pour résoudre des problèmes du monde réel ). J'espère que vous trouverez tout cela utile. Bonne chance dans votre carrière!

Aleksandr Blekh
la source
9

Eh bien, cela dépend du type de "Data Science" dans lequel vous souhaitez vous lancer. Pour les analyses de base et les statistiques de rapport, cela aidera certainement, mais pour l'apprentissage automatique et l'intelligence artificielle, vous voudrez quelques compétences supplémentaires

  • Théorie des probabilités - vous devez avoir une solide formation en probabilités pures afin de pouvoir décomposer tout problème, qu'il soit vu auparavant ou non, en principes probabilistes. Les statistiques aident beaucoup pour les problèmes déjà résolus, mais les problèmes nouveaux et non résolus nécessitent une compréhension approfondie des probabilités afin que vous puissiez concevoir des techniques appropriées.

  • Théorie de l'information - ceci (par rapport aux statistiques) est un tout nouveau domaine (bien qu'il date encore de plusieurs décennies), le travail le plus important a été de Shannon, mais une note encore plus importante et souvent négligée dans la littérature est le travail de Hobson qui a prouvé que la divergence de Kullback-Leibler est la seule définition mathématique qui capture véritablement la notion de "mesure de l'information" . Maintenant fondamental pour l'intelligence artificielle est de pouvoir quantifier l'information. Suggérer la lecture de "Concepts in Statistical Mechanics" - Arthur Hobson (livre très cher, uniquement disponible dans les bibliothèques universitaires).

  • Théorie de la complexité- Un grand problème auquel sont confrontés de nombreux Data Scientists qui n'ont pas une solide formation en théorie de la complexité est que leurs algorithmes ne se mettent pas à l'échelle, ou prennent simplement un temps extrêmement long pour fonctionner sur des données volumineuses. Prenez PCA par exemple, la réponse préférée de nombreuses personnes à la question de l'entretien "comment réduire le nombre d'entités dans notre ensemble de données", mais même si vous dites au candidat "l'ensemble de données est vraiment vraiment très volumineux", ils proposent toujours diverses formes de PCA qui sont O (n ^ 3). Si vous voulez vous démarquer, vous voulez être en mesure de résoudre chaque problème par lui-même, NE PAS y jeter une solution de manuel conçue il y a longtemps avant que le Big Data ne soit une chose à la mode. Pour cela, vous devez comprendre combien de temps les choses durent, non seulement théoriquement, mais pratiquement - alors comment utiliser un cluster d'ordinateurs pour distribuer un algorithme,

  • Compétences en communication - Une grande partie de la science des données consiste à comprendre les affaires. Qu'il s'agisse d'inventer un produit axé sur la science des données ou de donner un aperçu commercial piloté par la science des données, il est très important de bien communiquer avec les chefs de projet et de produit, les équipes techniques et vos collègues scientifiques des données. Vous pouvez avoir une idée étonnante, par exemple une excellente solution d'IA, mais si vous ne pouvez pas efficacement (a) communiquer POURQUOI cela fera de l'argent, (b) convaincre vos collègues que cela fonctionnera et (c) expliquer aux techniciens comment vous avez besoin leur aide pour le construire, alors ça ne se fera pas.

samthebest
la source
6

Scientifique des données (pour moi) un grand terme générique. Je considérerais un scientifique des données comme une personne capable d'utiliser efficacement les techniques des domaines de l'exploration de données, de l'apprentissage automatique, de la classification des modèles et des statistiques.

Cependant, ces termes sont étroitement liés: l'apprentissage automatique est lié à la classification des modèles, et l'exploration de données se chevauche également lorsqu'il s'agit de trouver des modèles dans les données. Et toutes les techniques ont leurs principes statistiques sous-jacents. J'imagine toujours cela comme un diagramme de Venn avec une énorme intersection.

L'informatique est également liée à tous ces domaines. Je dirais que vous avez besoin de techniques de "science des données" pour faire de la recherche informatique, mais les connaissances en informatique ne sont pas nécessairement impliquées dans la "science des données". Cependant, les compétences en programmation - je vois la programmation et l'informatique comme des professions différentes, où la programmation est davantage l'outil pour résoudre les problèmes - sont également importantes pour travailler avec les données et effectuer une analyse des données.

Vous avez un très bon plan d'étude, et tout cela a du sens. Mais je ne sais pas si vous "voulez" vous appeler simplement "data scientist", j'ai l'impression que "data scientist" est un terme si ambigu qui peut signifier tout ou rien. Ce que je veux dire, c'est que vous finirez par être quelque chose de plus - plus "spécialisé" - que "juste" un data scientist.


la source