Je suis docteur en mathématiques. étudiant qui souhaite aller dans l'industrie en tant que Data Scientist après l'obtention du diplôme. Je donnerai brièvement quelques informations sur ma formation avant de poser ma question, afin qu'elle soit mieux comprise:
Cours de mathématiques:
Cela a été principalement en mathématiques pures: topologie, analyse fonctionnelle, etc., mais inclut également des applications plus appliquées (sur lesquelles je me suis spécialisé pour la thèse): optimisation convexe, programmation non linéaire, analyse numérique, programmation linéaire, optimisation multiobjective. De plus, je n'ai actuellement aucune connaissance de la statistique inférentielle, mais je suis confiant dans la théorie des probabilités.
Programmation:
Je viens de suivre un cours d'un an en licence, mais c'était surtout Mathematica et un peu de Java, dont je ne me souviens vraiment pas. Dans ce cours, le contenu ne comprenait rien de structures de données ou de conception et d'analyse d'algorithmes, ni de systèmes de gestion de bases de données. J'ai également appris Matlab par moi-même pour implémenter des algorithmes dans la thèse de baccalauréat.
Le contexte ci-dessus était pendant le programme de baccalauréat et de maîtrise. Maintenant, pendant le doctorat. J'ai découvert que le Machine Learning est le mélange parfait (pour moi) entre l'optimisation non linéaire, la programmation et les applications dans le monde réel, c'est-à-dire qu'il est à la fois théoriquement intéressant et orienté vers les applications. C'est la raison pour laquelle je suis devenu si excité d'aller dans l'industrie. Par conséquent, j'ai commencé à apprendre des choses par moi-même (dans mon petit temps libre) au cours des 3 dernières années.
Bref résumé des choses apprises:
Python: Je suis à l'aise d'implémenter des algorithmes d'optimisation, de travailler avec des blocs-notes jupyter et la bibliothèque numpy (en fait, je devais le faire pour la dissertation), et de faire des manipulations de données de base et des tâches de nettoyage dans des pandas. J'ai appris cela en ligne, sur une plateforme appelée dataquest ( https://app.dataquest.io ). Cependant, je ne pense pas avoir suffisamment de connaissances pour passer un entretien sur les structures de données et les algorithmes (voir ci-dessus).
Apprentissage automatique: j'ai suivi un cours de niveau master sur le sujet à l'université (puisque je suis en Allemagne, nous n'avons pas de cours de doctorat, donc c'était tout dans mon temps personnel), ce que j'ai vraiment apprécié. Sujets inclus: k-NN, PCA, SVM, NN, etc.
Suivre un cours de bases de données ce semestre, qui se concentre sur SQL.
Prendre la spécialisation Deep Learning sur Coursera ce semestre.
Enfin, je tiens à dire que je me sens totalement capable d'apprendre les sujets. En fait, avec le temps, j'ai l'intention de suivre davantage de cours de niveau supérieur disponibles en ligne (par exemple, Stanford CS231N, CS234, etc.) car, à mon avis, les cours en ligne peuvent ne pas être assez rigoureux. J'espère qu'après la défense, je pourrai me concentrer à plein temps sur cela.
D'où les questions:
Puis-je encore être embauché à ce stade (je veux dire, après avoir terminé ce semestre avec les connaissances décrites ci-dessus)? Honnêtement, je pense que je ne suis pas prêt, mais je suis convaincu que je pourrai être décent dans un an.
Suis-je trop naïf pour penser qu'une entreprise me donnerait une chance?
Que dois-je faire pour devenir plus souhaitable dans tous les cas?
Réponses:
Je ne suis pas en désaccord avec les autres réponses, mais voici une perspective différente que vous devez garder à l'esprit. En outre, je peux offrir des réponses à vos questions spécifiques en tant que personne ayant quitté le milieu universitaire (mathématiques appliquées / CS) pour la science des données.
En bref, la compréhension des besoins sous-jacents et des cas d'utilisation pour un problème commercial est primordiale pour tout projet, et donc développer un solide sens des affaires et des compétences en communication interfonctionnelle est essentiel si vous voulez la plus large portée dans une carrière en science des données.
Je vais y répondre ensemble. Cela dépend fortement de l'entreprise et de ses besoins actuels. Pour vous, cela peut varier selon les dimensions "démarrage" à "entreprise" et "boutique ML" à "entreprise axée sur les données générales". Par ce dernier, je veux dire qu'il existe des entreprises dont le seul but est de vendre des produits ou des services ML aux clients, par rapport aux entreprises de technologie générale qui souhaitent exploiter la modélisation dans leur entreprise. Il y a de fortes chances que vous trouviez un ajustement plus rapide / plus facile avec une entreprise qui a déjà ses cas d'utilisation ML élaborés ou dictés par d'autres, parce que vous n'êtes pas susceptible d'être équipé pour élaborer une stratégie de démarrage d'un nouveau projet.
Donc, cela pourrait être vrai d'une entreprise plus grande qui a un département dédié à la meulage des détails techniques du modèle ML tandis que d'autres parties de l'entreprise déterminent la stratégie commerciale et la conception, ou dans une entreprise de toute taille qui se concentre sur le ML comme produit / un service.
À court terme, oui, vous pouvez probablement convaincre quelqu'un de vous avoir comme stagiaire ou assistant sur certains projets, mais votre doctorat sera probablement considéré comme un inconvénient potentiel si vous parlez à des petites et moyennes entreprises qui souhaitent embaucher des généralistes / crics de tous les métiers ...
Ce qui m'amène à cela. Vous pouvez choisir votre propre aventure car il existe de nombreux types de rôles, mais vous devez être conscient du type de rôle et de la situation que chaque employeur potentiel recherche et être réaliste quant à la manière dont vous pourriez vous y adapter. Il y a beaucoup d'employeurs qui n'expriment pas clairement ce qu'ils veulent ou ce dont ils ont besoin, ou ne savent même pas ce que c'est . Vous feriez bien de comprendre cela avec eux pour éviter une grosse déception.
Si vous souhaitez élargir vos horizons en science des données et vous assurer d'avoir le plus grand impact commercial et des opportunités de développement professionnel, vous voudriez en savoir beaucoup plus sur les applications commerciales de la science des données. Celles-ci sont très diverses et à la fois plus informelles dans la pratique et plus impactantes pour l'entreprise que de se soucier des optimisations pour les matrices pseudo-inverseuses.
Malgré les opinions raisonnables dans les autres réponses publiées sur le marché, il y a un énorme déficit de marché à mon avis pour les scientifiques des données qui:
la source
Les emplois en science des données couvrent un large éventail d'activités différentes, de sorte que toute réponse est susceptible d'être subjective. Je suis dans le milieu universitaire, donc ma connaissance du marché du travail est limitée, mais d'après ce que je peux voir:
la source
Erwan l'a cloué (+1). Mais je pense que mon ajout est un peu trop long pour un commentaire.
Vous semblez être bien en avance sur ma position lorsque j'ai décroché mon emploi DS. J'étais en mathématiques pures, quelques post-doctorants et je n'avais que peu de temps d'auto-apprentissage lorsque je postulais pour la science des données de l'industrie.
D'un autre côté, j'ai eu des examens actuariels dans mon premier cycle, ce qui m'a probablement aidé à entrer dans l'espace fintech. Lorsque vous postulez, insistez sur ce que vous savez déjà et reconnaissez ce que vous devrez apprendre au cours de vos premiers mois (programmation plus solide? Utiliser git? ...).
(De plus, vous n'avez pas mentionné de modèles basés sur des arbres dans votre cours de ML: je suppose que c'était juste une omission, mais ceux-ci semblent être le modèle le plus important à comprendre, sauf si vous essayez d'entrer dans des industries où les réseaux neuronaux sont la norme.)
la source
Ne prenez pas ce conseil à l'aveuglette: les sujets que vous avez mentionnés en mathématiques sont au cœur de la résolution de problèmes en utilisant l'apprentissage automatique / l'apprentissage en profondeur, la programmation est un outil pour mettre en œuvre toute cette théorie que vous apprenez et sur cette base, vous créez vos hypothèses, puis tester en l'implémentant dans le code pour que vous n'avez pas besoin des compétences de codage d'un codeur, vous devez connaître les structures de données de votre utilisation, en particulier les trames de données et la manipulation du tenseur et le repos que vous apprendrez lors de la mise en œuvre. La meilleure partie avec vous est que vous avez les connaissances fondamentales des mathématiques (je suppose que vous connaissez le calcul multivarié des statistiques de probabilité, l'analyse fonctionnelle et le reste des sujets que vous avez mentionnés, je n'entrerai pas dans les détails car vous faites déjà un doctorat .
Je vous suggère de suivre tous les cours de Fast.ai enseignés par Jeremy Howard (il est littéralement dieu de l'apprentissage profond) son cours sur l'apprentissage profond pratique pour les codeurs regorge de connaissances en dehors de celui pour la compréhension de base des mathématiques derrière les réseaux de neurones vous pouvez aller lire un blog de Michael Nielsen appelé neuralnetworksanddeeplearning.com c'est en fait un livre et un grand et vous adorerez l'explication mathématique et pour plus de compréhension, vous pouvez toujours aller lire sur le blog de Chris olah c'est tout simplement génial.
Alors maintenant, le problème est que vous pouvez toujours obtenir de nombreux stages de recherche et aller y apprendre dans un environnement industriel, mais je préfère vous suggérer, donnez-vous un peu de temps pour suivre ces cours, saisissez la question et avec les mathématiques derrière vous, vous sont prêts à tout. Vous voyez, la science des données en ce moment, c'est comme si tout le monde voulait être un et obtenir ce salaire à 6 chiffres et être fait, mais ce n'est pas comme si la science des données n'est pas quelque chose que vous pouvez apprendre tout à la fois, cela prend du temps,
Alors, donnez-vous du temps, soyez patient et continuez à résoudre, continuez à lire des articles de littérature sur les derniers sujets qui sont maintenant disponibles gratuitement maintenant, alors continuez.
la source