Conseils pour un nouveau data scientist

Je suis sur le point de commencer un travail dans lequel je travaillerai avec de grands ensembles de données et je devrais trouver des tendances, etc ... J'ai trouvé beaucoup de ressources sur où apprendre le ML et d'autres compétences techniques et me sentir ) compétent à cet effet.

Je souhaite savoir s'il existe des compétences générales spécifiques utiles en tant que data scientist. Quelles sont les choses que vous souhaiteriez savoir au départ?

Bien que Kaggle soit très utile lors de l'apprentissage, il présente également des objectifs clairs. Comment gérez-vous recevoir un ensemble de données, mais pas d'objectif clair?

Faites-moi savoir si c'est trop large, je peux penser à des questions plus spécifiques.

beginner Hobbes
la source

astuce n ° 1: ne

Brandon Loudermilk

Si cela ne vous dérange pas, veuillez partager l'industrie dans laquelle vous vous trouvez. Les mathématiques et les concepts restent les mêmes, mais la structure des données varie et la façon dont on peut les aborder. Les conseils ci-dessous sont très appropriés et s'ils sont pratiqués, ils seront d'une grande aide. J'espère qu'en connaissant l'industrie, je pourrai partager quelque chose que vous pouvez directement relier.

Drj

J'espère que celui qui vous a interviewé pour ce travail est en train de lire ceci et de penser "pourquoi n'avons-nous pas posé ces questions lors de l'entretien?".

Spacedman

Drj, je travaillerai en partie avec les données du processus de fabrication et en partie avec les données des commentaires des clients. Cela ressemble à un large spectre. Je viens du milieu universitaire où les données ont été produites par mes propres expériences et j'avais des objectifs très clairs.

Hobbes

Réponses:

Je pense qu'il y a beaucoup de compétences générales importantes à considérer dans le domaine de la science des données.

En voici quelques uns:

Savoir avec certitude quel est l'objectif, passer beaucoup de temps sur la gestion des données, les modèles, la visualisation et les rapports alors que ce n'était pas tout pour l'objectif spécifique à l'esprit est un gaspillage. Communiquer avec des personnes moins techniques est une compétence en soi.
Répéter à plusieurs reprises avec le propriétaire du produit. Continuez à vous assurer que vous êtes sur la bonne voie.
Si les données ne racontent pas l'histoire qu'ils pensaient / veulent leur dire, ce n'est pas le cas, expliquez clairement pourquoi cela se produit, quels biais pourraient jouer un rôle, etc. N'appliquez pas toutes sortes de filtres et ne modifiez pas les paramètres pour obtenir les résultats souhaités.

Concernant votre deuxième question:

L'objectif doit être obtenu explicitement du propriétaire du produit ou dérivé d'un objectif moins mathématique. Un exemple pourrait être où vous devez prévoir les arrivées de train en fonction de certaines fonctionnalités. Ils veulent que le modèle prédit autant de fois que possible dans une plage d'erreur de 10 minutes. C'est relativement explicite.

Parfois, c'est moins clair que cela, ils pourraient dire que nous en avons besoin aussi précis que possible. Ensuite, vous devrez décider quoi optimiser, dans certains cas, cela ne fera que minimiser le MSE mais dans d'autres cas, d'autres choses pourraient avoir plus de sens pour votre cas. Habituellement, cela ressortira clairement de l'objectif implicite et de quelque chose que vous améliorerez avec plus d'expérience. Les objectifs implicites et explicites découlent d'une communication claire avec le propriétaire du produit.

Jan van der Vegt
la source

Merci pour le commentaire, je pense que vos conseils sur la communication avec des personnes moins techniques sont vraiment utiles et certainement quelque chose sur lequel je dois travailler.

Hobbes

J'ai aussi ajouté quelques informations sur l'objectif

Jan van der Vegt

Très utile, je garderai cela à l'esprit pour aller de l'avant. (Je suppose que je ne pourrai pas voter avant d'avoir une réputation plus élevée)

Hobbes

"Comment gérez-vous recevoir un ensemble de données, mais pas d'objectif clair?"

Ce sera courant.

Outre les conseils ci-dessus, comprenez qu'il est essentiel de comprendre les objectifs de l'entreprise dans laquelle vous vous trouvez et de votre client immédiat. Vous devrez souvent comprendre le problème spécifique qui les a poussés à se tourner vers les données mieux qu’eux. Il est très courant de recevoir des données et un objectif peu clair de la part de votre client interne ou externe - ce sera généralement votre tâche de fournir un objectif qui peut être atteint avec les données et résoudra le problème commercial réel du client. Une réflexion latérale sera nécessaire pour faire correspondre le résultat des données et la solution métier.

Je résumerais ce qui précède comme «la définition de l'objectif est trop importante (et peut-être trop difficile!) Pour être laissée au client (seul)».

Dans le contexte d'apprentissage automatique, CRISP-DM est une méthodologie qui essaie de résoudre ce problème en itérant à travers une boucle afin que la compréhension de données supplémentaires puisse être utilisée en discussion avec le client pour mieux comprendre le problème d'origine. Ainsi, par exemple, ils peuvent énoncer un objectif mal défini, une deuxième discussion après avoir effectué un EDA l'aiguisera un peu. Lorsque vous produirez plus tard un modèle qui fonctionne bien, mais qui n'est pas tout à fait sur la bonne cible, vous vous rapprocherez à nouveau du véritable objectif commercial.

En d'autres termes, ne soyez pas trop dérangé par le flou de la tâche. Attendez-vous à rencontrer un vide et remplissez-le à votre avantage.

C'est un léger changement latéral, mais la méthodologie six sigma tente de résoudre ce problème dans un contexte différent avec le système DMAIC (le `` D '' signifie `` Définir '', en termes de `` voix du client ''), il est donc probable que certains conseils peuvent être glanés dans les ressources pour le contexte des six sigma (par exemple, des exercices que vous pouvez faire avec un client pour les aider à exprimer plus clairement ce que vous voulez)

Robert de Graaf
la source

Merci, c'est une excellente rétroaction. J'aime particulièrement «définir l'objectif est trop important (et peut-être trop difficile!) Pour être laissé au client (seul)». Je vais certainement me pencher sur CRISP-DM.

Hobbes