Je suis sur le point de commencer un travail dans lequel je travaillerai avec de grands ensembles de données et je devrais trouver des tendances, etc ... J'ai trouvé beaucoup de ressources sur où apprendre le ML et d'autres compétences techniques et me sentir ) compétent à cet effet.
Je souhaite savoir s'il existe des compétences générales spécifiques utiles en tant que data scientist. Quelles sont les choses que vous souhaiteriez savoir au départ?
Bien que Kaggle soit très utile lors de l'apprentissage, il présente également des objectifs clairs. Comment gérez-vous recevoir un ensemble de données, mais pas d'objectif clair?
Faites-moi savoir si c'est trop large, je peux penser à des questions plus spécifiques.
Réponses:
Je pense qu'il y a beaucoup de compétences générales importantes à considérer dans le domaine de la science des données.
En voici quelques uns:
Concernant votre deuxième question:
L'objectif doit être obtenu explicitement du propriétaire du produit ou dérivé d'un objectif moins mathématique. Un exemple pourrait être où vous devez prévoir les arrivées de train en fonction de certaines fonctionnalités. Ils veulent que le modèle prédit autant de fois que possible dans une plage d'erreur de 10 minutes. C'est relativement explicite.
Parfois, c'est moins clair que cela, ils pourraient dire que nous en avons besoin aussi précis que possible. Ensuite, vous devrez décider quoi optimiser, dans certains cas, cela ne fera que minimiser le MSE mais dans d'autres cas, d'autres choses pourraient avoir plus de sens pour votre cas. Habituellement, cela ressortira clairement de l'objectif implicite et de quelque chose que vous améliorerez avec plus d'expérience. Les objectifs implicites et explicites découlent d'une communication claire avec le propriétaire du produit.
la source
"Comment gérez-vous recevoir un ensemble de données, mais pas d'objectif clair?"
Ce sera courant.
Outre les conseils ci-dessus, comprenez qu'il est essentiel de comprendre les objectifs de l'entreprise dans laquelle vous vous trouvez et de votre client immédiat. Vous devrez souvent comprendre le problème spécifique qui les a poussés à se tourner vers les données mieux qu’eux. Il est très courant de recevoir des données et un objectif peu clair de la part de votre client interne ou externe - ce sera généralement votre tâche de fournir un objectif qui peut être atteint avec les données et résoudra le problème commercial réel du client. Une réflexion latérale sera nécessaire pour faire correspondre le résultat des données et la solution métier.
Je résumerais ce qui précède comme «la définition de l'objectif est trop importante (et peut-être trop difficile!) Pour être laissée au client (seul)».
Dans le contexte d'apprentissage automatique, CRISP-DM est une méthodologie qui essaie de résoudre ce problème en itérant à travers une boucle afin que la compréhension de données supplémentaires puisse être utilisée en discussion avec le client pour mieux comprendre le problème d'origine. Ainsi, par exemple, ils peuvent énoncer un objectif mal défini, une deuxième discussion après avoir effectué un EDA l'aiguisera un peu. Lorsque vous produirez plus tard un modèle qui fonctionne bien, mais qui n'est pas tout à fait sur la bonne cible, vous vous rapprocherez à nouveau du véritable objectif commercial.
En d'autres termes, ne soyez pas trop dérangé par le flou de la tâche. Attendez-vous à rencontrer un vide et remplissez-le à votre avantage.
C'est un léger changement latéral, mais la méthodologie six sigma tente de résoudre ce problème dans un contexte différent avec le système DMAIC (le `` D '' signifie `` Définir '', en termes de `` voix du client ''), il est donc probable que certains conseils peuvent être glanés dans les ressources pour le contexte des six sigma (par exemple, des exercices que vous pouvez faire avec un client pour les aider à exprimer plus clairement ce que vous voulez)
la source