En parcourant le domaine de recherche du programme des 100 meilleures statistiques des États-Unis, presque tous sont lourds en statistiques bayésiennes. Cependant, si je vais dans une école de niveau inférieur, la plupart d'entre eux font toujours des recherches statistiques classiques / fréquentistes. Par exemple, mon école actuelle (classée entre 150 et 200 sur le classement mondial QS pour les statistiques, donc pas considérée comme une école de haut niveau) n'a qu'un seul professeur se concentrant sur les statistiques bayésiennes et il y a presque un ressentiment envers les statistiques bayésiennes. Certains étudiants diplômés à qui j'ai parlé disent même que les statisticiens bayésiens font des statistiques bayésiennes pour le plaisir, ce que je suis bien sûr en désaccord.
Cependant, je me demande pourquoi c'est le cas. J'ai plusieurs suppositions éclairées:
(a) il n'y a pas assez de place pour des progrès dans la méthodologie des statistiques classiques / fréquentes et la seule recherche viable dans la recherche de statistiques classiques / fréquentistes porte sur les applications qui seront le principal objectif de l'école de niveau inférieur, car l'école de niveau supérieur devrait être plus enclin à la recherche théorique et méthodologique.
(b) Elle dépend fortement du champ. Certaines branches de statistiques sont tout simplement plus adaptées aux statistiques bayésiennes telles que de nombreuses applications scientifiques de la méthode des statistiques tandis que d'autres branches conviennent mieux aux statistiques classiques telles que la zone financière. (corrigez-moi si je me trompe) Compte tenu de cela, il me semble que les écoles de niveau supérieur ont beaucoup de facultés de statistiques qui font des applications dans le domaine scientifique tandis que le département de statistiques des écoles de niveau inférieur concentre principalement les applications dans le domaine financier car cela les aide à générer des revenus et le financement.
(c) Il y a d'énormes problèmes avec la méthode fréquentiste qui ne peuvent pas être résolus, par exemple le sujet au sur-ajustement du MLE, etc. Et le bayésien semble fournir des solutions brillantes.
(d) La puissance de calcul est là, donc le calcul bayésien n'est plus un goulot d'étranglement comme il y a 30 ans.
(e) Celui-ci est peut-être la supposition la plus aboutie que j'ai. Il y a une résistance du statisticien classique / fréquentiste qui n'aime tout simplement pas une nouvelle vague de méthodologie qui peut potentiellement dépasser le rôle des statistiques classiques. Mais comme l'a dit Larry Wasserman, cela dépend de ce que nous essayons de faire et tout le monde devrait garder un esprit ouvert, surtout en tant que chercheur.
la source
Réponses:
Personnellement, je tenterais quelques suppositions:
(1) Les statistiques bayésiennes ont vu une énorme augmentation de la popularité au cours des deux dernières décennies. Cela est dû en partie aux progrès du MCMC et à l'amélioration des ressources informatiques. Les statistiques bayésiennes sont passées de théoriquement très agréables mais applicables uniquement aux problèmes de jouets à une approche qui pourrait être plus universellement appliquée. Cela signifie qu'il y a plusieurs années, en disant que vous avez travaillé sur les statistiques bayésiennes, vous avez probablement fait de votre location un concurrentiel.
Maintenant, je dirais que les statistiques bayésiennes sont toujours un plus, mais il en va de même pour travailler sur des problèmes intéressants sans utiliser de méthodes bayésiennes. Un manque de connaissances en statistiques bayésiennes serait certainement un inconvénient pour la plupart des comités de recrutement, mais obtenir un doctorat en statistiques sans une formation suffisante aux méthodes bayésiennes serait assez surprenant.
(2) Les statisticiens bayésiens mentionneront "bayésien" dans leur CV. Les Frequentists ne mettront généralement pas "Frequentist" sur leur CV, mais beaucoup plus typiquement dans la zone dans laquelle ils travaillent (ie, analyse de survie, modélisation prédictive, prévision, etc.). À titre d'exemple, une grande partie de mon travail consiste à écrire des algorithmes d'optimisation, ce qui, je suppose, implique que vous diriez que je fais du travail Frequentist. J'ai également écrit une bonne partie des algorithmes bayésiens, mais c'est certainement dans la minorité de mon travail. Les statistiques bayésiennes sont sur mon CV, pas les statistiques Frequentist.
(3) Dans une certaine mesure, ce que vous avez dit dans votre question est également vrai. Un calcul bayésien général efficace comporte plus de problèmes ouverts que le domaine fréquentiste. Par exemple, l'hamiltonien Monte Carlo est récemment devenu un algorithme très intéressant pour l'échantillonnage générique à partir de modèles bayésiens. Il n'y a pas beaucoup de place pour l'amélioration des génériquesoptimisation de nos jours; Les algorithmes de Newton Raphson, L-BFGS et EM couvrent de nombreuses bases. Si vous voulez améliorer ces méthodes, vous devez généralement vous spécialiser beaucoup sur le problème. En tant que tel, vous préférez dire «je travaille sur l'optimisation à haute dimension des modèles géospatiaux» plutôt que «je travaille sur l'estimation à maximum de vraisemblance à haute dimension». Le monde du machine learning est un peu une exception à cela, car il y a beaucoup d'enthousiasme à découvrir de nouvelles méthodes d'optimisation stochastique (par exemple, SGD, Adam, etc.), mais c'est une bête légèrement différente pour plusieurs raisons.
De même, il y a du travail à faire pour trouver de bons priors pour les modèles. Méthodes fréquentistes n'ont un équivalent à ce ( à venir avec de bonnes pénalités, c. -à- LASSO, glmnet) mais il y a probablement plus terre fertile pour prieurs plus des sanctions.
(4) Enfin, et c'est certainement plus une opinion personnelle, beaucoup de gens associent Frequentist aux valeurs p. Compte tenu de la mauvaise utilisation générale des valeurs de p observée dans d'autres domaines, de nombreux statisticiens aimeraient se distancer autant que possible des abus actuels de valeurs de p.
la source