Il semble que l’exploration de données et l’apprentissage automatique soient devenus si populaires qu’à présent presque tous les étudiants CS connaissent les classificateurs, le regroupement, la PNL statistique, etc.
Ma question est la suivante: quelles compétences un fouisseur de données pourrait-il acquérir pour le rendre différent des autres? Pour faire de lui un genre de personne pas si facile à trouver.
machine-learning
data-mining
Jack Twain
la source
la source
Réponses:
J'ai vu plusieurs fois les développeurs utiliser les techniques ML. C'est le schéma habituel:
La réponse simple est que (la plupart) les ingénieurs logiciels sont très faibles en statistiques et en mathématiques. C'est l'avantage de quiconque veut rivaliser avec eux. Bien sûr, les statistiques sont hors de leur zone de confort s’ils doivent écrire du code de production. Le genre de rôle qui devient vraiment rare est celui de Data Scientist. C'est quelqu'un qui peut écrire du code pour accéder à l'énorme quantité de données et y jouer, et en trouver la valeur.
la source
De quoi s'agit-il
Connaître les techniques équivaut à connaître les animaux d'un zoo - vous pouvez les nommer, décrire leurs propriétés, peut-être les identifier à l'état sauvage.
Comprendre quand les utiliser, formuler, construire, tester et déployer des modèles mathématiques fonctionnels dans un domaine d'application tout en évitant les pièges - ce sont les compétences qui distinguent, à mon avis.
L'accent devrait être mis sur la science , en appliquant une approche scientifique systématique aux problèmes commerciaux, industriels et commerciaux. Mais cela nécessite des compétences plus vastes que l’exploration de données et l’apprentissage automatique, comme le fait valoir Robin Bloor dans «A Data Science Rant» .
Alors, que peut-on faire?
Domaines d'application : découvrez les différents domaines d'application proches de votre intérêt ou de celui de votre employeur. La zone est souvent moins importante que de comprendre comment le modèle a été construit et comment il a été utilisé pour ajouter de la valeur à cette zone. Les modèles qui réussissent dans un domaine peuvent souvent être transplantés et appliqués à différents domaines qui fonctionnent de manière similaire.
Compétitions : essayez le site de compétition d’exploration de données Kaggle , rejoignant de préférence une équipe. (Kaggle: une plate-forme pour les concours de modélisation prédictive. Les entreprises, les gouvernements et les chercheurs présentent des ensembles de données et des problèmes, ainsi que les meilleurs scientifiques de données du monde se font concurrence pour produire les meilleures solutions.)
Principes fondamentaux : Il en existe quatre: (1) une solide base en statistiques, (2) des compétences en programmation assez bonnes, (3) une bonne structuration des requêtes de données complexes, (4) la création de modèles de données. Si certains sont faibles, alors c'est un point de départ important.
Quelques citations à ce sujet:
Garder en tete:
Et enfin:
La plupart des problèmes réels et appliqués ne sont pas accessibles uniquement à partir de `` la carte ''. Pour faire des choses pratiques avec la modélisation mathématique, il faut être prêt à s'empiffrer de détails, de subtilités et d'exceptions. Rien ne peut remplacer la connaissance du territoire.
la source
Je suis d'accord avec tout ce qui a été dit. Ce qui se démarque pour moi sont:
la source
Voici quelques éléments pour vous démarquer de la foule:
Le message général qui s'applique aux trois points: Regardez la situation dans son ensemble, ne vous perdez pas dans les détails.
la source
La compétence qui distingue un mineur de données des autres est la capacité d'interpréter des modèles d'apprentissage automatique. La plupart construisent une machine, signalent l'erreur puis s'arrêtent. Quelles sont les relations mathématiques entre les caractéristiques? Les effets sont-ils additifs ou non-additifs ou les deux? Est-ce que certaines des caractéristiques ne sont pas pertinentes? La machine est-elle attendue sous l'hypothèse nulle qu'il n'y a que des modèles de hasard dans les données? Le modèle se généralise-t-il aux données indépendantes? Que signifient ces modèles pour le problème à l'étude? Quelles sont les inférences? Quelles sont les idées? Pourquoi un expert du domaine devrait-il s'énerver? La machine amènera-t-elle l'expert du domaine à poser de nouvelles questions et à concevoir de nouvelles expériences? Le Data Miner peut-il communiquer efficacement le modèle et ses implications au monde?
la source
Je mettrais là-bas la notion de "compétences non techniques".
reconnaître qui est "l'expert" pour la méthode X et être en mesure de puiser dans ses connaissances (vous ne devriez pas être en mesure de savoir tout sur n'importe quoi). La capacité et la volonté de collaborer avec les autres.
la capacité de traduire ou de représenter "le monde réel" avec les mathématiques utilisées dans ML.
la capacité d'expliquer vos méthodes de différentes manières à différents publics - savoir quand se concentrer sur les détails et quand prendre du recul et voir le contexte plus large.
en pensant aux systèmes, en étant capable de voir comment votre rôle se répercute sur d’autres domaines de l’entreprise et comment ces domaines se répercutent sur votre travail.
une appréciation et une compréhension de l'incertitude et des méthodes structurées pour y faire face. Être capable de dire clairement quelles sont vos hypothèses.
la source
Être capable de bien généraliser
C'est l'essence d'un bon modèle. Et c’est l’essence de ce qui distingue les meilleurs praticiens de l’apprentissage automatique.
Comprendre que l'objectif est d'optimiser les performances sur des données invisibles et non de minimiser les pertes d'apprentissage. Savoir éviter à la fois le sur-ajustement et le sous-ajustement. Venir avec des modèles pas trop complexes mais pas trop simples pour décrire le problème. Extraire l'essentiel d'un ensemble de formation, plutôt que le maximum possible.
Il est étonnant de constater combien de fois, même les praticiens expérimentés en apprentissage automatique, ne respectent pas ce principe. Une des raisons est que les humains ne parviennent pas à apprécier deux grandes différences d'ampleur théorie-pratique :
C'est aussi ce que la plupart des réponses ci-dessus ont dit de manière plus spécifique et concrète. bien généraliser n’est que le moyen le plus court auquel je puisse penser, pour le dire.
la source
Je vois qu'il y a deux parties dans la pratique de l'apprentissage automatique
Ingénierie (qui couvre tous les algorithmes, apprentissage de différents packages, programmation).
Curiosité / Raisonnement (capacité à poser de meilleures questions aux données).
Je pense que la "curiosité / raisonnement" est la compétence qui distingue l’un des autres. Par exemple, si vous voyez les classements des finitions kaggle, de nombreuses personnes ont peut-être utilisé des algorithmes communs (similaires). Ce qui fait la différence, c’est la façon logique de questionner les données et de les formuler.
la source