Est-il important que les statisticiens apprennent l'apprentissage automatique?

22

L'apprentissage automatique est-il un sujet important pour tout statisticien de se familiariser? Il semble que l'apprentissage automatique soit une statistique. Pourquoi les programmes de statistiques (premier cycle et cycles supérieurs) ne nécessitent-ils pas un apprentissage automatique?

20616
la source
1
Les lecteurs ici pourraient être intéressés par le fil suivant: Quelle est la différence entre l'exploration de données, les statistiques, l'apprentissage automatique et l'IA .
gung - Réintégrer Monica
2
Je ne sais pas, mais je suis presque sûr que tous ceux qui font de l'apprentissage automatique devraient apprendre les statistiques.
Dave

Réponses:

18

L'apprentissage automatique est un domaine spécialisé des statistiques appliquées de haute dimension. Cela nécessite également une formation considérable en programmation, ce qui n'est pas nécessaire pour un bon programme quantitatif, en particulier au niveau du premier cycle, mais aussi dans une certaine mesure au niveau des cycles supérieurs. Elle ne s'applique qu'à l'aspect prédictif des statistiques, tandis que les statistiques mathématiques ainsi que les statistiques appliquées inférentielles et descriptives nécessitent une attention particulière. De nombreux programmes offrent aux étudiants la possibilité d'avoir une grande exposition au machine learning (CMU par exemple), mais les statisticiens industriels dans l'ensemble ont rarement la chance d'appliquer ces outils, sauf certains emplois technologiques de haut niveau.

Alors que je l' ai vu récemment de postes d' apprentissage scientifique des données et la machine sur le marché du travail, je pense que la description générale de l' emploi de « statisticien » ne nécessite pas d'arrière - plan d' apprentissage machine, mais ne nécessitent une compréhension impeccable des statistiques de base, inférence et communication: ceux-ci devraient vraiment être au cœur d'un programme de statistiques pour les diplômés. L'apprentissage automatique et la science des données sont également relativement nouveaux en tant que titres d'emploi et disciplines. Ce serait un mauvais service à ceux qui cherchent un emploi en tant que statisticiens de faire évoluer leurs stratégies de résolution de problèmes vers l'apprentissage automatique s'il est principalement abandonné dans les entreprises / les entreprises pharmaceutiques / bioscientifiques pour une efficacité décevante dans 10 ou 20 ans.

Enfin, je ne pense pas que l'apprentissage automatique améliore considérablement la compréhension des statistiques. Les statistiques sont fondamentalement un domaine interdisciplinaire et il est important de communiquer et de convaincre les experts non techniques de votre domaine (tels que les médecins, les directeurs financiers ou les administrateurs) pourquoi vous avez choisi la méthodologie que vous avez choisie. L'apprentissage automatique est un domaine tellement technique et très spécialisé que, dans de nombreuses pratiques appliquées, il ne promet que de meilleures performances que les outils et techniques standard. De nombreuses méthodes d'apprentissage supervisé et non supervisé sont perçues par les non-experts (et même certains experts moins formés) comme une "boîte noire". Lorsqu'on leur demande de défendre leur choix d'une méthode d'apprentissage spécifique, certaines explications tombent à plat et ne s'appuient sur aucune des circonstances motivées par le problème appliqué.

AdamO
la source
1
Pourriez-vous expliquer un peu plus en détail ce que vous voulez dire exactement avec les explications tombant à plat (des exemples peut-être?)?
cbeleites prend en charge Monica le
10
Je ne peux pas décrire les différences entre une analyse discriminante linéaire, des machines à vecteurs de support et un GLM LASSO d'une manière qui a du sens pour un médecin. J'ai donc construit un modèle de régression logistique pour la prédiction du risque de cancer du sein en utilisant une poignée de covariables soigneusement ajustées. Une fois présentés, les médecins se sont immédiatement lancés dans une discussion éclairante sur la taille de leurs effets. La discrimination de mon modèle «scientifique» était très comparable à des techniques de ML plus sophistiquées (chevauchement des IC à 90% pour l'AUC basé sur le bootstrap dans l'échantillon de validation), et je ne suis pas le seul à avoir un tel rapport de cas!
AdamO
4
@cbeleites, avez-vous déjà eu à communiquer avec une personne substantielle avec au mieux une quantité d'algèbre universitaire de connaissances en mathématiques? SVM ne produit pas de tailles d'effet en termes que les médecins comprendraient; la largeur de la marge n'a pas de sens pour eux, contrairement aux rapports impairs auxquels ils sont très habitués. Si vous ne parlez pas la langue du client, il ne perdra pas son temps et son argent avec vous.
StasK
2
@GraemeWalsh point fantastique. Je lutte énormément avec le concept d'utilisation de modèles prédictifs sophistiqués pour l'inférence prédictive, comme c'est souvent le cas dans la modélisation d'équations structurelles ou la causalité éponyme de Granger. Je pense qu'il reste beaucoup de travail à faire dans ce domaine. Par exemple, je reconnais intuitivement une grande similitude entre la modélisation semi-paramétrique et les modèles structurels marginaux, mais je ne sais pas où se situent les différences.
AdamO
2
@Jase, vous devriez jeter un coup d'œil aux articles des gagnants du concours Netflix. Leurs rapports étaient très similaires, même avec un modèle bayésien faisant la moyenne des poids postérieurs sur un grand espace de modèles, ils ont observé que Pca semblait avoir un poids postérieur dominant dans toutes les conditions. Cela ne veut pas dire qu'ils sont équivalents, mais il y a un compromis entre simplicité et précision qui me fait privilégier des modèles plus simples que ceux proposés par ml arena. On pourrait penser de façon analogue à la façon dont les modèles paramétriques sophistiqués fonctionnent de manière similaire aux modèles non paramétriques.
AdamO
14

OK, parlons de l'éléphant des statistiques avec nos yeux bandés par ce que nous avons appris d'une ou deux personnes avec lesquelles nous avons étroitement travaillé dans nos programmes d'études supérieures ...

Les programmes de statistiques exigent ce qu'ils jugent bon, c'est-à-dire quelle est la chose la plus importante qu'ils souhaitent que leurs élèves apprennent étant donné le temps limité qu'ils auront dans le programme. Exiger une zone étroite signifie dire adieu à d'autres zones qui peuvent être considérées comme tout aussi importantes. Certains programmes nécessitent une mesure de la probabilité théorique, d'autres non. Certains nécessitent une langue étrangère, mais la plupart des programmes ne le font pas. Certains programmes considèrent le paradigme bayésien comme la seule chose qui mérite d'être étudiée, mais la plupart ne le font pas. Certains programmes savent que la plus grande demande de statisticiens se trouve dans les statistiques d'enquêtes (du moins c'est le cas aux États-Unis), mais la plupart n'en ont pas. Les programmes Biostat suivent l'argent et enseignent à SAS + les méthodes qui se vendront facilement aux sciences médicales et pharmaceutiques.

Pour une personne qui conçoit des expériences agricoles, ou recueille des données d'enquête via des enquêtes téléphoniques, ou valide des échelles psychométriques, ou produit des cartes d'incidence de maladies dans un SIG, l'apprentissage automatique est un art abstrait de l'informatique, très éloigné des statistiques avec lesquelles il travaille quotidiennement. base. Aucune de ces personnes ne verra aucun avantage immédiat de l'apprentissage des machines à vecteurs de support ou des forêts aléatoires.

Dans l'ensemble, l'apprentissage automatique est un bon complément à d'autres domaines de la statistique, mais je dirais que les choses courantes comme la distribution normale multivariée et les modèles linéaires généralisés doivent venir en premier.

StasK
la source
5

L'apprentissage automatique consiste à acquérir des connaissances / apprendre des données. Par exemple, je travaille avec des algorithmes d'apprentissage automatique qui peuvent sélectionner quelques gènes qui peuvent être impliqués dans un type particulier de maladie à partir de données d'ADN Microarray (par exemple les cancers ou le diabète). Les scientifiques peuvent ensuite utiliser ces gènes (modèles appris) pour un diagnostic précoce dans le futur (classification des échantillons invisibles).

Il y a beaucoup de statistiques impliquées dans l'apprentissage automatique, mais il existe des branches d'apprentissage automatique qui ne nécessitent pas de statistiques (par exemple la programmation génétique). La seule fois où vous auriez besoin de statistiques dans ces cas serait de voir si un modèle que vous avez construit à l'aide de l'apprentissage automatique est statistiquement significativement différent d'un autre modèle.

À mon avis, une introduction à l'apprentissage automatique pour les statisticiens serait avantageuse . Cela aidera les statisticiens à voir des scénarios réels d'application des statistiques. Cependant, cela ne devrait pas être obligatoire . Vous pouvez devenir un statisticien à succès et passer votre vie entière sans avoir à vous approcher du machine learning!

révolusions
la source
2
Je dirais que vous avez besoin de statistiques à chaque fois que vous signalez les performances de votre modèle. Mabe c'est parce que ma profession est la chimie analytique, où l'une des règles importantes est "un nombre sans intervalle de confiance n'est pas un résultat".
cbeleites prend en charge Monica le
1
@cbeleites, je suis d'accord avec vous. Ce que je voulais dire, c'est que les statisticiens n'ont pas nécessairement besoin d'être des experts en apprentissage automatique! Ils peuvent se débrouiller sans apprendre le machine learning :)
revolusions
1
@cbeleites, ou plusieurs intervalles de confiance dans le cas des esimateurs multimodaux (par exemple, Sivia & Skilling Data Analysis ).
alancalvitti