Contexte : Je n'ai pas de formation formelle en statistique bayésienne (bien que je sois très intéressé à en apprendre davantage), mais je sais assez - je pense - pour comprendre l'essentiel des raisons pour lesquelles beaucoup se sentent comme préférables aux statistiques frequentist. Même les étudiants de premier cycle du cours d'introduction aux statistiques (en sciences sociales) que j'enseigne trouvent la méthode bayésienne attrayante - "Pourquoi nous intéressons-nous au calcul de la probabilité des données, étant donné la valeur nulle? Pourquoi ne pouvons-nous pas simplement quantifier la probabilité de L'hypothèse nulle, ou l'hypothèse alternative, et j'ai également lu des sujets comme ceux - ci , qui attestent également des avantages empiriques des statistiques bayésiennes, mais je suis tombé sur cette citation de Blasco (2001; les italiques ont été accentuées):
Si l'éleveur d'animaux ne s'intéresse pas aux problèmes philosophiques liés à l'induction, mais aux outils de résolution des problèmes, les écoles d'inférence bayésienne et fréquentiste sont bien établies et il n'est pas nécessaire de justifier pourquoi on préfère l'une ou l'autre école. Aucun d’entre eux n’a actuellement de difficultés opérationnelles, à l’exception de cas complexes ... Le choix d’une école ou de l’autre doit être lié à la question de savoir s’il existe des solutions dans une école que l’autre n’offre pas , à la facilité avec laquelle les problèmes sont résolus et à quel point le scientifique se sent à l’aise avec le mode particulier d’expression obtenu.
La question : La citation de Blasco semble suggérer qu'il peut y avoir des moments où une approche Frequentist est réellement préférable à une approche bayésienne. Et je suis donc curieux: quand une approche fréquentiste serait-elle préférable à une approche bayésienne? Je suis intéressé par les réponses qui abordent la question à la fois conceptuellement (c'est-à-dire, quand connaître la probabilité des données conditionnées sur l'hypothèse nulle est-il particulièrement utile?) Et empiriquement (c'est-à-dire dans quelles conditions les méthodes Frequentist sont-elles supérieures à celles de Bayesian?).
Il serait également préférable que les réponses soient transmises de la manière la plus accessible possible. Il serait agréable de transmettre certaines réponses à ma classe pour les partager avec mes étudiants (bien que je comprenne qu'un certain niveau de technicité est requis).
Enfin, même si je suis un utilisateur régulier des statistiques Frequentist, je suis ouvert à la possibilité que Bayesian l'emporte dans tous les domaines.
la source
Réponses:
Voici cinq raisons pour lesquelles les méthodes fréquentistes peuvent être préférées:
Plus rapide. Etant donné que les statistiques bayésiennes donnent souvent des réponses presque identiques aux réponses fréquentistes (et quand elles ne le font pas, il n’est pas clair que le bayésien est toujours la voie à suivre), le fait que les statistiques fréquentistes puissent être obtenues est souvent plusieurs ordres de grandeur plus rapidement. un argument fort. De même, les méthodes fréquentistes ne nécessitent pas autant de mémoire pour stocker les résultats. Bien que ces éléments puissent sembler un peu triviaux, en particulier avec des ensembles de données plus petits, le fait que Bayesian et Frequentist soient généralement d’accord sur les résultats (en particulier si vous disposez de nombreuses données informatives) signifie que si vous vous en souciez, vous pouvez commencer à vous soucier des moins importants. des choses. Et bien sûr, si vous vivez dans le monde des données volumineuses, celles-ci ne sont pas du tout triviales.
Statistiques non paramétriques. Je reconnais que les statistiques bayésiennes ont des statistiques non paramétriques, mais je dirais que le côté fréquentiste du domaine dispose d'outils vraiment indéniablement pratiques, tels que la fonction de distribution empirique. Aucune méthode au monde ne remplacera jamais le FED, ni les courbes de Kaplan Meier, etc. (bien que cela ne soit clairement pas le cas, ces méthodes sont la fin d'une analyse).
Moins de diagnostics. Les méthodes MCMC, la méthode la plus courante pour adapter les modèles bayésiens, nécessitent généralement plus de travail de la part de l'utilisateur que son homologue fréquentiste. Habituellement, le diagnostic pour une estimation MLE est si simple que toute implémentation d'algorithme efficace le fera automatiquement (même si cela ne veut pas dire que chaque implémentation disponible est bonne ...). En tant que tel, le diagnostic algorithmique fréquentiste consiste généralement à "s'assurer qu'il n'y a pas de texte rouge lors de l'ajustement du modèle". Étant donné que tous les statisticiens ont une bande passante limitée, cela laisse plus de temps pour poser des questions du type "mes données sont- elles vraiment normales?" ou "ces dangers sont-ils vraiment proportionnels?", etc.
Inférence valide sous spécification erronée du modèle. Nous avons tous entendu dire que "Tous les modèles sont faux, mais que certains sont utiles", mais différents domaines de recherche prennent cela plus ou moins au sérieux. La littérature Frequentist regorge de méthodes pour corriger l'inférence lorsque le modèle est mal spécifié: estimateur par bootstrap, validation croisée, estimateur en sandwich (le lien discute également de l'inférence MLE générale sous une spécification erronée du modèle), d'équations d'estimation généralisées (GEE), méthodes de quasi-vraisemblance, etc. Pour autant que je sache, la littérature bayésienne parle très peu d'inférence sous spécification erronée de modèle (bien qu'il y ait beaucoup de discussions sur la vérification de modèle, c'est-à-dire les vérifications prédictives postérieures). Je ne pense pas que cela soit dû au hasard: évaluer le comportement d'un estimateur par rapport à des essais répétés ne nécessite pas que l'estimateur soit basé sur un "vrai" modèle, mais le théorème de Bayes le fait!
Liberté du passé (c'est probablement la raison la plus courante pour laquelle les gens n'utilisent pas les méthodes bayésiennes). La force du point de vue bayésien est souvent présentée comme l'utilisation de prieurs. Cependant, dans tous les domaines appliqués dans lesquels j'ai travaillé, l'idée d'un préalable informatif dans l'analyse n'est pas prise en compte. La lecture de la littérature sur la manière de susciter des a priori auprès d’experts non statistiques donne un bon raisonnement à cet égard; J'ai lu des articles qui disent des choses comme (homme de paille cruel, comme paraphrasant le mien) "Demandez au chercheur qui vous a embauché, car il a du mal à comprendre les statistiques, de donner à son calcul une marge qu'il est certain à 90% de l'ampleur de l'effet qu'il a du mal à imaginer. être dans. Cet intervalle est généralement trop étroit, essayez donc de leur demander de l’élargir un peu plus et demandez-leur si leur croyance ressemble à une distribution gamma. Vous devrez probablement dessiner une distribution gamma pour eux et montrer comment il peut avoir de lourdes queues si le paramètre de forme est petit. Cela impliquera également d'expliquer ce qu'est un PDF pour eux. "(Note: je ne pense pas que même les statisticiens soient vraiment capables de dire avec précisiona priori, qu’ils soient à 90% ou à 95% certains que la taille de l’effet se situe dans une plage, cette différence peut avoir un effet important sur l’analyse!). À vrai dire, je suis assez méchant et il peut arriver que demander un préalable soit un peu plus simple. Mais vous pouvez voir à quel point c'est une boîte de Pandore. Même si vous passez à des a priori non informatifs, cela peut toujours poser problème. lors de la transformation de paramètres, ce qui est facilement confondu avec des a priori non informatifs peut tout à coup être considéré comme très informatif! Un autre exemple est que j'ai parlé à plusieurs chercheurs qui ne veulent absolument pasveulent entendre l'interprétation des données par un autre expert parce qu'empiriquement, les autres experts ont tendance à avoir trop confiance en eux. Ils préfèrent simplement savoir ce qui peut être déduit des données de l'autre expert et arriver ensuite à leur propre conclusion. Je ne me souviens pas de l'endroit où je l'ai entendu, mais quelque part, j'ai lu la phrase suivante: "si vous êtes bayésien, vous voulez que tout le monde soit frequentiste". J'interprète cela comme signifiant qu'en théorie, si vous êtes bayésien et que quelqu'un décrit ses résultats d'analyse, vous devez d'abord essayer de supprimer l'influence de son prédécesseur, puis de déterminer quel serait l'impact si vous aviez utilisé le vôtre. Ce petit exercice serait simplifié s’ils vous avaient attribué un intervalle de confiance plutôt qu’un intervalle crédible!
Bien sûr, si vous abandonnez les a priori informatifs, les analyses bayésiennes restent utiles. Personnellement, c'est là où je crois que leur utilité la plus haute réside; L'utilisation de méthodes MLE pose des problèmes qui sont extrêmement difficiles à obtenir, mais peuvent être résolus assez facilement avec MCMC. Mais mon point de vue selon lequel il s’agit de la plus haute utilité de Bayesian est dû à la force de mes ancêtres, prenez donc cela avec un grain de sel.
la source
Quelques avantages concrets des statistiques fréquentistes:
la source
La raison la plus importante d'utiliser les approches Frequentist, qui n'a étonnamment pas encore été mentionnée, est le contrôle des erreurs. Très souvent, les recherches conduisent à des interprétations dichotomiques (devrais-je faire une étude à partir de là, ou pas? Devrait-on mettre en œuvre une intervention ou pas?). Les approches Frequentist vous permettent de contrôler strictement votre taux d'erreur de type 1. Les approches bayésiennes ne le font pas (bien que certaines héritent des approches universelles liées à la vraisemblance, mais même dans ce cas, les taux d'erreur peuvent être assez élevés dans de petits échantillons et avec des seuils de preuve relativement bas (par exemple, BF> 3). Vous pouvez examiner les propriétés Frequentist de Facteurs Bayes (voir par exemple http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513) mais c’est toujours une approche Frequentist. Je pense que très souvent, les chercheurs se soucient plus du contrôle des erreurs que de la quantification des preuves en tant que telles (par rapport à une hypothèse spécifique), et je pense au moins que tout le monde se soucie du contrôle des erreurs dans une certaine mesure, et donc les deux approches devraient être utilisées de manière complémentaire.
la source
Je pense qu’une des plus grandes questions, en tant que statisticien, vous devez vous demander est de savoir si vous croyez, ou si vous voulez adhérer, au principe de vraisemblance. Si vous ne croyez pas au principe de vraisemblance, alors je pense que le paradigme fréquentiste des statistiques peut être extrêmement puissant. Cependant, si vous croyez en ce principe, alors (je crois) vous devez très certainement épouser le paradigme bayésien dans ne pas le violer.
Si vous ne le connaissez pas encore, voici ce que dit le principe de vraisemblance:
Les statistiques bayésiennes ont notamment pour atout que le paradigme bayésien n’est jamais enfreint par le principe de vraisemblance. Cependant, il existe des scénarios très simples où le paradigme fréquentiste violera le principe de vraisemblance.
Voici un exemple très simple basé sur des tests d'hypothèses. Considérer ce qui suit:
Prenons une expérience où 12 essais de Bernoulli ont été menés et 3 succès ont été observés. En fonction de la règle d'arrêt, nous pouvons caractériser les données comme suit:
Ainsi, nous obtiendrions les fonctions de vraisemblance suivantes: ce qui implique que et donc, par le principe de vraisemblance, nous devrions obtenir les mêmes déductions sur partir de l'une ou l'autre des probabilités.
Imaginons maintenant de tester les hypothèses suivantes du paradigme fréquentiste
Pour le modèle binomial, nous avons:
Notez que mais les autres termes ne pas satisfaire le principe de vraisemblance.(123)(12)12=ℓ1(12;x=3)
Pour le modèle binomial négatif, nous avons:
D'après les calculs de la valeur p ci-dessus, nous voyons que dans le modèle binomial, nous ne pourrions pas rejeter mais en utilisant le modèle binomial négatif, nous rejetterions . Ainsi, même si , les valeurs p et les décisions basées sur ces valeurs p ne coïncident pas. Cet argument des valeurs p est souvent utilisé par les bayésiens contre l'utilisation des valeurs p de Frequentist.Ho Ho ℓ1(θ;x)∝ℓ2(θ;y)
Examinons maintenant de nouveau les hypothèses suivantes, mais à partir du paradigme bayésien
Pour le modèle binomial, nous avons:
De même, pour le modèle binomial négatif, nous avons:
Maintenant, en utilisant les règles de décision bayésiennes, choisissez si (ou un autre seuil) et répétez la même chose pour .Ho yP(θ≥12|x)>12 y
Cependant, et nous en arrivons à même conclusion et cette approche satisfait donc le principe de vraisemblance.P(θ≥12|x)=P(θ≥12|y)
Et donc pour conclure mes divagations, si vous ne vous souciez pas du principe de vraisemblance, alors être fréquentiste est génial! (Si vous ne pouvez pas dire, je suis bayésien :))
la source
Vous et moi sommes tous deux scientifiques, et en tant que scientifiques, vous êtes principalement intéressés par les questions de preuves. Pour cette raison, je pense que les approches bayésiennes, dans la mesure du possible, sont préférables.
Les approches bayésiennes répondent à notre question: Quelle est la force de la preuve pour une hypothèse par rapport à une autre? Les approches fréquentistes, par contre, ne le font pas: elles indiquent uniquement si les données sont étranges compte tenu d’une hypothèse.
Cela étant dit, Andrew Gelman, notable bayésien, semble préconiser l’utilisation de valeurs p (ou de vérifications graphiques analogues à des valeurs p) pour vérifier les erreurs de spécification de modèle. Vous pouvez voir une allusion à cette approche dans cet article de blog .
Si je comprends bien, sa démarche ressemble à un processus en deux étapes: tout d’abord, il pose la question bayésienne de savoir quelle est la preuve d’un modèle par rapport à un autre. Deuxièmement, il pose la question Frequentist de savoir si le modèle préféré considère réellement tout ce qui est plausible compte tenu des données. Cela me semble une approche hybride raisonnable.
la source
Personnellement, j'ai du mal à penser à une situation où la réponse fréquentiste serait préférable à une réponse bayésienne. Ma réflexion est détaillée ici et dans d'autres articles de blog sur fharrell.com sur les problèmes liés aux valeurs p et aux tests d'hypothèses nulles. Les fréquentistes ont tendance à ignorer quelques problèmes fondamentaux. Voici juste un échantillon:
En ce qui concerne le premier point, un modèle couramment utilisé est le modèle logistique binaire. Sa vraisemblance logarithmique est très non quadratique et la grande majorité des limites de confiance et des valeurs p calculées pour de tels modèles ne sont pas très précises. Comparez cela au modèle logistique bayésien, qui fournit une inférence exacte.
D'autres ont mentionné le contrôle des erreurs comme raison d'utiliser l'inférence fréquentiste. Je ne pense pas que ce soit logique, parce que l' erreur à laquelle ils se réfèrent est l'erreur de longue durée, en imaginant un processus dans lequel des milliers de tests statistiques sont exécutés. Un juge qui a déclaré que "la probabilité d'une fausse condamnation à long terme dans ma salle d'audience n'est que de 0,03" devrait être radié. Elle est accusée d'avoir la plus grande probabilité de prendre la bonne décision pour le défendeur actuel . D'autre part, un moins la probabilité postérieure d'un effet est la probabilité d'un effet nul ou inverse et correspond à la probabilité d'erreur dont nous avons réellement besoin.
la source
Beaucoup de gens ne semblent pas conscients d'une troisième école philosophique: le vraisemblance. Le livre de AWF Edwards, Probabilité, est probablement le meilleur endroit pour en prendre connaissance. Voici un court article qu'il a écrit.
Le vraisemblance évite les valeurs p, comme le bayésianisme, mais évite également le passé souvent douteux du bayésien. Il y a un traitement d'introduction ici aussi.
la source
Un des principaux inconvénients des approches fréquentistes de la construction de modèles a toujours été, comme le note TrynnaDoStats dans son premier point, les défis liés à l’inversion de grandes solutions fermées. L'inversion matricielle sous forme fermée nécessite que toute la matrice soit résidente dans la RAM, ce qui constitue une limite importante pour les plates-formes à un seul processeur avec de grandes quantités de données ou des fonctionnalités massivement catégoriques. Les méthodes bayésiennes ont permis de contourner ce problème en simulant des tirages aléatoires à partir d'un préalable spécifié. Cela a toujours été l’un des principaux arguments de vente des solutions bayésiennes, bien que les réponses ne soient obtenues qu’à un coût significatif en CPU.
Andrew Ainslie et Ken Train, dans un article d'il y a environ 10 ans auquel j'ai perdu la référence, ont comparé les mélanges finis (de forme fréquente ou fermée) aux approches bayésiennes de la construction de modèles et ont découvert que, dans une large gamme de formes fonctionnelles et les mesures de performance, les deux méthodes ont fourni des résultats essentiellement équivalents. Les solutions bayésiennes présentaient un avantage ou une plus grande flexibilité dans les cas où les informations étaient à la fois rares et de très haute dimension.
Cependant, ce document a été écrit avant que les algorithmes "diviser et conquérir" ne développent des plateformes massivement parallèles, par exemple, voir l'article de Chen et Minge pour plus d'informations à ce sujet http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012- 01.pdf
L'avènement des approches de D & C a fait que, même pour les problèmes les plus volumineux, les plus dimensionnels et les plus poilus, les approches bayésiennes n'ont plus aucun avantage sur les méthodes fréquentistes. Les deux méthodes sont à parité.
Ce développement relativement récent mérite d'être signalé dans tout débat sur les avantages ou les limites pratiques de l'une ou l'autre méthode.
la source
Les tests Frequentist se concentrent sur la falsification de l'hypothèse nulle. Cependant, le test de signification de l'hypothèse nulle (NHST) peut également être effectué dans une perspective bayésienne, car dans tous les cas, NHST est simplement un calcul de P (Effet observé | Effet = 0). Il est donc difficile d'identifier un moment où il serait nécessaire de mener NHST d'un point de vue fréquentiste.
Cela étant dit, le meilleur argument en faveur de la mise en œuvre du NHST selon une approche fréquentiste est la facilité et l’accessibilité. Les gens apprennent des statistiques fréquentistes. Il est donc plus facile de gérer un NHST fréquentiste, car il existe de nombreux autres progiciels statistiques qui facilitent cette opération. De même, il est plus facile de communiquer les résultats d'un NHST fréquentiste, car les gens connaissent bien cette forme de NHST. Donc, je vois cela comme le meilleur argument en faveur d'approches fréquentistes: l'accessibilité aux programmes de statistiques qui les exécuteront et la facilité de communication des résultats aux collègues. Ceci n’est cependant que culturel, donc cet argument pourrait changer si les approches fréquentistes perdent leur hégémonie.
la source
Plusieurs commentaires:
La différence fondamentale entre le statisticien bayésien et fréquentiste est que le bayésien est disposé à étendre les outils de la probabilité à des situations où le fréquentiste ne le ferait pas.
Dans les statistiques bayésiennes, on espère qu'après l'observation des données, le postérieur écrase le prieur, que le prieur n'a pas d'importance. Mais ce n'est souvent pas le cas: les résultats peuvent être sensibles au choix de prior! Différents Bayésiens ayant des antécédents différents n'ont pas besoin d'être d'accord sur le postérieur.
Il est important de garder à l’esprit que les déclarations du statisticien fréquentiste sont des affirmations sur lesquelles deux Bayésiens peuvent s’entendre, quelles que soient leurs croyances antérieures!
Le fréquentiste ne commente pas les a priori ou les postérieurs, mais simplement la vraisemblance.
Les déclarations du statisticien fréquentiste sont en quelque sorte moins ambitieuses, mais les déclarations plus audacieuses du bayésien peuvent s'appuyer de manière significative sur la désignation d'un prieur. Dans les situations où les prieurs ont de l'importance et où il y a désaccord sur les priors, les déclarations conditionnelles de statistiques fréquentistes, plus limitées, peuvent être plus solides.
la source
Le but de beaucoup de recherches n'est pas d'arriver à une conclusion finale, mais juste d' obtenir un peu plus de preuves pour pousser progressivement le sens de la question de la communauté dans une direction .
Les statistiques bayésiennes sont indispensables lorsque vous avez besoin d’évaluer une décision ou une conclusion à la lumière des preuves disponibles. Le contrôle de la qualité serait impossible sans les statistiques bayésiennes. Toute procédure dans laquelle vous devez collecter des données, puis y donner suite (robotique, apprentissage automatique, prise de décision commerciale) bénéficie des statistiques bayésiennes.
Mais beaucoup de chercheurs ne le font pas. Ils font des expériences, collectent des données, puis disent: "Les données vont dans ce sens", sans trop se soucier de savoir si c'est la meilleure conclusion compte tenu de toutes les preuves que d'autres ont rassemblées jusqu'à présent. La science peut être un processus lent et un énoncé du type "La probabilité que ce modèle soit correct est de 72%!" est souvent prématuré ou inutile.
Ceci est également approprié d’une manière mathématique simple, car les statistiques fréquentistes se révèlent souvent mathématiquement identiques à l’étape de mise à jour d’une statistique bayésienne. En d’autres termes, alors que les statistiques bayésiennes sont (modèle précédent, preuves) → nouveau modèle, les statistiques fréquentistes ne sont que des preuves et laissent à d’autres le soin de remplir les deux autres parties.
la source
L'exécution réelle d'une méthode bayésienne est plus technique que celle d'un Frequentist. Par "plus technique", j'entends des choses telles que: 1) le choix des priorités, 2) la programmation de votre modèle dans un BUGS / JAGS / STAN et 3) la réflexion sur l'échantillonnage et la convergence.
De toute évidence, le n ° 1 n’est quasiment pas optionnel, par définition, du bayésien. Cependant, avec certains problèmes et procédures, il peut exister des valeurs par défaut raisonnables, masquant quelque peu le problème pour l'utilisateur. (Bien que cela puisse aussi causer des problèmes!)
Que le numéro 2 soit un problème dépend du logiciel que vous utilisez. La statistique bayésienne a tendance à privilégier des solutions plus générales que les méthodes statistiques fréquentistes, et des outils tels que BUGS, JAGS et STAN en sont une expression naturelle. Cependant, il existe des fonctions bayésiennes dans divers progiciels qui semblent fonctionner comme dans la procédure fréquentiste typique. Ce n'est donc pas toujours un problème. (Et des solutions récentes telles que les packages R
rstanarm
et quibrms
permettent de réduire cet écart.) Néanmoins, l’utilisation de ces outils est très similaire à la programmation dans un nouveau langage.Le point 3 est généralement applicable, car la majorité des applications bayésiennes du monde réel vont utiliser l'échantillonnage MCMC. (D'un autre côté, les procédures fréquentistes basées sur le MLE utilisent une optimisation qui peut converger vers un minimum local ou ne pas converger du tout, et je me demande combien d'utilisateurs devraient vérifier cela et ne le font pas?)
Comme je l'ai dit dans un commentaire, je ne suis pas sûr que l'absence de prieur soit un avantage scientifique. C'est certainement pratique à plusieurs égards et à plusieurs reprises dans le processus de publication, mais je ne suis pas sûr que cela améliore réellement la science. (Et dans l'ensemble, nous devons tous être conscients de nos antécédents en tant que scientifiques, sinon nous aurons toutes sortes de biais dans nos enquêtes, quelles que soient les méthodes statistiques que nous utilisons.)
la source
Conceptuellement : je ne sais pas. Je crois que les statistiques bayésiennes sont la façon la plus logique de penser, mais je ne peux pas justifier pourquoi.
L’avantage du fréquentiste est qu’il est plus facile pour la plupart des élèves de niveau élémentaire. Mais pour moi c'était étrange. Il a fallu des années avant que je puisse vraiment clarifier intellectuellement ce qu'est un intervalle de confiance. Mais lorsque j'ai commencé à faire face à des situations pratiques, les idées fréquentistes apparaissaient simples et très pertinentes.
Empiriquement
La question la plus importante sur laquelle je me concentre d’aujourd’hui concerne davantage l’efficacité pratique: temps de travail personnel, précision et rapidité de calcul.
Temps de travail personnel: Pour les questions de base, je n’utilise pratiquement jamais de méthode bayésienne: j’utilise des outils fréquentistes de base et je préférerai toujours un test t à un test bayésien qui me donnerait mal à la tête. Quand je veux savoir si je suis significativement meilleur à tictactoe que ma copine, je fais un chi-squared :-). En fait, même dans le cadre d’un travail sérieux en tant qu’informaticien, les outils de base fréquentistes sont d’une aide précieuse pour étudier les problèmes et éviter les fausses conclusions dues au hasard.
Précision: dans l’apprentissage automatique où la prédiction compte plus que l’analyse, il n’ya pas de frontière absolue entre bayésien et fréquentiste. MLE est un approcah fréquentiste: juste un estimateur. Mais la MLE régularisée (MAP) est une approche partiellement bayésienne : vous trouvez le mode du postérieur et vous ne vous souciez pas du reste du postérieur. Je ne connais pas de justification fréquentiste expliquant pourquoi utiliser la régularisation. En pratique, la régularisation est parfois simplement inévitable car l’estimation brute de l’EMV est tellement suréquipée que 0 serait un meilleur prédicteur. Si la régularisation est considérée comme une méthode vraiment bayésienne, cela justifie à lui seul que Bayes peut apprendre avec moins de données.
Vitesse de calcul: les méthodes fréquentistes sont le plus souvent plus rapides et plus simples à mettre en œuvre. Et en quelque sorte, la régularisation fournit un moyen peu coûteux d’introduire un peu de Bayes en eux. C'est peut-être parce que les méthodes bayésiennes ne sont toujours pas aussi optimisées qu'elles le pourraient. Par exemple, certaines implémentations de LDA sont rapides de nos jours. Mais ils demandaient un travail très dur. Pour les estimations d'entropie, les premières méthodes avancées ont été la méthode bayésienne. Ils ont très bien fonctionné, mais les méthodes fréquentistes ont rapidement été découvertes et prennent beaucoup moins de temps de calcul ... Pour le temps de calcul, les méthodes fréquentistes sont généralement nettement supérieures. Il n'est pas absurde, si vous êtes bayésien, de considérer les méthodes fréquentistes comme des approximations des méthodes bayésiennes.
la source
Un type de problème dans lequel une approche particulière basée sur Frequentist a essentiellement dominé n'importe quel bayésien est celui de la prédiction dans le cas M-open.
Qu'est-ce que M-open signifie?
M-open implique que le vrai modèle qui génère les données n'apparaisse pas dans l'ensemble de modèles que nous considérons. Par exemple, si la moyenne vraie de est quadratique en fonction de , alors que nous ne considérons que les modèles avec la moyenne une fonction linéaire de , nous sommes dans le cas M-ouvert. En d'autres termes, une spécification erronée du modèle aboutit à un cas M-open.y x x
Dans la plupart des cas, il s’agit d’un problème énorme pour les analyses bayésiennes; à peu près toute la théorie que je connais repose sur le modèle correctement spécifié. Bien entendu, en tant que statisticiens critiques, nous devrions penser que notre modèle est toujours mal spécifié. C'est tout un problème. la plupart de notre théorie est basée sur le modèle étant correct, mais nous savons que ce n'est jamais le cas. En gros, nous croisons simplement les doigts en espérant que notre modèle ne soit pas trop incorrect.
Pourquoi les méthodes Frequentist gèrent-elles mieux cela?
Tous ne le font pas. Par exemple, si nous utilisons des outils MLE standard pour créer les erreurs standard ou établir des intervalles de prédiction, nous ne sommes pas mieux lotis que d’utiliser des méthodes Bayesiennes.
Cependant, il existe un outil Frequentist très spécifiquement conçu dans ce but précis: la validation croisée. Ici, afin d’estimer la capacité de notre modèle à prévoir de nouvelles données, nous laissons simplement certaines données lors de l’ajustement du modèle et mesurons la mesure dans laquelle notre modèle prédit les données invisibles.
Notez que cette méthode est complètement ambivalente par rapport à une spécification erronée du modèle. Elle fournit simplement une méthode permettant d'estimer la capacité d'un modèle à prédire sur de nouvelles données, que le modèle soit "correct" ou non.
Je ne pense pas qu'il soit trop difficile d'affirmer que cela change vraiment l'approche de la modélisation prédictive qu'il est difficile de justifier du point de vue bayésien (un préalable est censé représenter la connaissance antérieure avant de voir des données, la fonction de vraisemblance est le modèle, etc.) en un c’est très facile à justifier du point de vue de Frequentist (nous avons choisi le modèle + les paramètres de régularisation qui, après échantillonnage répété, permettent de tirer le meilleur parti des erreurs d’échantillon).
Cela a complètement révolutionné la façon dont l'inférence prédictive est faite. Je ne pense pas qu'un statisticien considérerait (ou du moins devrait) sérieusement un modèle prédictif qui n'a pas été construit ou vérifié avec une validation croisée, quand il est disponible (c'est-à-dire que nous pouvons raisonnablement supposer que les observations sont indépendantes et n'essayent pas de rendre compte biais d’échantillonnage, etc.).
la source