L'apprentissage automatique est-il un sujet important pour tout statisticien de se familiariser? Il semble que l'apprentissage automatique soit une statistique. Pourquoi les programmes de statistiques (premier cycle et cycles supérieurs) ne nécessitent-ils pas un apprentissage automatique?
machine-learning
careers
20616
la source
la source
Réponses:
L'apprentissage automatique est un domaine spécialisé des statistiques appliquées de haute dimension. Cela nécessite également une formation considérable en programmation, ce qui n'est pas nécessaire pour un bon programme quantitatif, en particulier au niveau du premier cycle, mais aussi dans une certaine mesure au niveau des cycles supérieurs. Elle ne s'applique qu'à l'aspect prédictif des statistiques, tandis que les statistiques mathématiques ainsi que les statistiques appliquées inférentielles et descriptives nécessitent une attention particulière. De nombreux programmes offrent aux étudiants la possibilité d'avoir une grande exposition au machine learning (CMU par exemple), mais les statisticiens industriels dans l'ensemble ont rarement la chance d'appliquer ces outils, sauf certains emplois technologiques de haut niveau.
Alors que je l' ai vu récemment de postes d' apprentissage scientifique des données et la machine sur le marché du travail, je pense que la description générale de l' emploi de « statisticien » ne nécessite pas d'arrière - plan d' apprentissage machine, mais ne nécessitent une compréhension impeccable des statistiques de base, inférence et communication: ceux-ci devraient vraiment être au cœur d'un programme de statistiques pour les diplômés. L'apprentissage automatique et la science des données sont également relativement nouveaux en tant que titres d'emploi et disciplines. Ce serait un mauvais service à ceux qui cherchent un emploi en tant que statisticiens de faire évoluer leurs stratégies de résolution de problèmes vers l'apprentissage automatique s'il est principalement abandonné dans les entreprises / les entreprises pharmaceutiques / bioscientifiques pour une efficacité décevante dans 10 ou 20 ans.
Enfin, je ne pense pas que l'apprentissage automatique améliore considérablement la compréhension des statistiques. Les statistiques sont fondamentalement un domaine interdisciplinaire et il est important de communiquer et de convaincre les experts non techniques de votre domaine (tels que les médecins, les directeurs financiers ou les administrateurs) pourquoi vous avez choisi la méthodologie que vous avez choisie. L'apprentissage automatique est un domaine tellement technique et très spécialisé que, dans de nombreuses pratiques appliquées, il ne promet que de meilleures performances que les outils et techniques standard. De nombreuses méthodes d'apprentissage supervisé et non supervisé sont perçues par les non-experts (et même certains experts moins formés) comme une "boîte noire". Lorsqu'on leur demande de défendre leur choix d'une méthode d'apprentissage spécifique, certaines explications tombent à plat et ne s'appuient sur aucune des circonstances motivées par le problème appliqué.
la source
OK, parlons de l'éléphant des statistiques avec nos yeux bandés par ce que nous avons appris d'une ou deux personnes avec lesquelles nous avons étroitement travaillé dans nos programmes d'études supérieures ...
Les programmes de statistiques exigent ce qu'ils jugent bon, c'est-à-dire quelle est la chose la plus importante qu'ils souhaitent que leurs élèves apprennent étant donné le temps limité qu'ils auront dans le programme. Exiger une zone étroite signifie dire adieu à d'autres zones qui peuvent être considérées comme tout aussi importantes. Certains programmes nécessitent une mesure de la probabilité théorique, d'autres non. Certains nécessitent une langue étrangère, mais la plupart des programmes ne le font pas. Certains programmes considèrent le paradigme bayésien comme la seule chose qui mérite d'être étudiée, mais la plupart ne le font pas. Certains programmes savent que la plus grande demande de statisticiens se trouve dans les statistiques d'enquêtes (du moins c'est le cas aux États-Unis), mais la plupart n'en ont pas. Les programmes Biostat suivent l'argent et enseignent à SAS + les méthodes qui se vendront facilement aux sciences médicales et pharmaceutiques.
Pour une personne qui conçoit des expériences agricoles, ou recueille des données d'enquête via des enquêtes téléphoniques, ou valide des échelles psychométriques, ou produit des cartes d'incidence de maladies dans un SIG, l'apprentissage automatique est un art abstrait de l'informatique, très éloigné des statistiques avec lesquelles il travaille quotidiennement. base. Aucune de ces personnes ne verra aucun avantage immédiat de l'apprentissage des machines à vecteurs de support ou des forêts aléatoires.
Dans l'ensemble, l'apprentissage automatique est un bon complément à d'autres domaines de la statistique, mais je dirais que les choses courantes comme la distribution normale multivariée et les modèles linéaires généralisés doivent venir en premier.
la source
L'apprentissage automatique consiste à acquérir des connaissances / apprendre des données. Par exemple, je travaille avec des algorithmes d'apprentissage automatique qui peuvent sélectionner quelques gènes qui peuvent être impliqués dans un type particulier de maladie à partir de données d'ADN Microarray (par exemple les cancers ou le diabète). Les scientifiques peuvent ensuite utiliser ces gènes (modèles appris) pour un diagnostic précoce dans le futur (classification des échantillons invisibles).
Il y a beaucoup de statistiques impliquées dans l'apprentissage automatique, mais il existe des branches d'apprentissage automatique qui ne nécessitent pas de statistiques (par exemple la programmation génétique). La seule fois où vous auriez besoin de statistiques dans ces cas serait de voir si un modèle que vous avez construit à l'aide de l'apprentissage automatique est statistiquement significativement différent d'un autre modèle.
À mon avis, une introduction à l'apprentissage automatique pour les statisticiens serait avantageuse . Cela aidera les statisticiens à voir des scénarios réels d'application des statistiques. Cependant, cela ne devrait pas être obligatoire . Vous pouvez devenir un statisticien à succès et passer votre vie entière sans avoir à vous approcher du machine learning!
la source