Exemple de la façon dont les statistiques bayésiennes peuvent estimer des paramètres très difficiles à estimer par des méthodes fréquentistes

9

Les statisticiens bayésiens soutiennent que "les statistiques bayésiennes peuvent estimer des paramètres très difficiles à estimer par des méthodes fréquentistes". La citation suivante tirée de cette documentation SAS dit-elle la même chose?

Il fournit des inférences conditionnelles aux données et exactes, sans recours à une approximation asymptotique. L'inférence de petits échantillons se déroule de la même manière que si l'on avait un grand échantillon. L'analyse bayésienne peut également estimer directement toutes les fonctions des paramètres, sans utiliser la méthode du "plug-in" (un moyen d'estimer les fonctionnelles en branchant les paramètres estimés dans les fonctionnelles).

J'ai vu une déclaration similaire dans certains manuels, mais je ne me souviens pas où. Quelqu'un peut-il me l'expliquer avec un exemple?

Stat-R
la source
Quelle est la probabilité que le soleil se lève demain? en.wikipedia.org/wiki/Sunrise_problem Cet exemple pourrait être plus trivial que ce que vous espériez
Hugh
Pouvez-vous mettre le devis directement dans votre question? Le titre ne semble pas lié au deuxième point.
Hugh
1
L'énoncé de cette citation n'est pas grand en ce sens que (a) "exact" ne veut rien dire et (b) la critique du plug-in ne s'applique que si l'on considère la pleine estimation postérieure et non une autre, plus en fonction de la fonction de perte choisie pour l'estimation. Voir cette autre question pour quelques réponses .
Xi'an

Réponses:

8

J'ai des objections avec cette citation:

  1. Le «fréquentisme» est une approche de l'inférence basée sur les propriétés de fréquence des estimateurs choisis. Il s'agit d'une notion vague dans la mesure où elle n'indique même pas que les estimateurs doivent converger et s'ils le font selon la manière dont ils doivent converger. Par exemple, l'impartialité est une notion fréquentiste mais elle ne peut pas s'appliquer à toutes les fonctions [du paramètreθ] d'intérêt depuis la collecte des transformations de θqui permettent un estimateur sans biais est très restreint. De plus, un estimateur fréquentiste n'est pas produit par le paradigme mais doit d'abord être choisi avant d'être évalué. En ce sens, un estimateur bayésien est un estimateur fréquentiste s'il satisfait à une propriété fréquentiste.
  2. L'inférence produite par une approche bayésienne est basée sur la distribution postérieure, représentée par sa densité π(θ|D). Je ne comprends pas comment le terme "exact" peut êtreπ(θ|D)Il est uniquement associé à une distribution antérieureπ(θ)et il est exactement dérivé par le théorème de Bayes. Mais il ne renvoie pas d' inférence exacte en ce que l'estimation ponctuelle n'est pas la vraie valeur du paramètreθet il ne produit des énoncés de probabilité exacts que dans le cadre fourni par la paire avant x vraisemblance . Changer un terme dans la paire modifie la postérieure et l'inférence, alors qu'il n'y a pas d'argument générique pour défendre une seule priorité ou vraisemblance.
  3. De même, d'autres énoncés de probabilité comme «le vrai paramètre a une probabilité de 0,95 de tomber dans un intervalle crédible de 95%» trouvés dans la même page de cette documentation SAS ont une signification relative au cadre de la distribution postérieure mais pas en valeur absolue.
  4. D'un point de vue informatique, il est vrai qu'une approche bayésienne peut souvent renvoyer des réponses exactes ou approximatives dans les cas où une approche classique standard échoue. C'est par exemple le cas pour les modèles de variables latents [ou manquants]
    f(x|θ)=g(x,z|θ)dz
    g(x,z|θ) est une densité commune pour la paire (X,Z) et où Z n'est pas observée, Produire des estimations de θ et de sa partie postérieure par simulation du couple (θ,Z)peut s'avérer beaucoup plus facile que de dériver un estimateur [fréquentiste?] à probabilité maximale. Un exemple pratique de ce cadre est le modèle coalescent de Kingman en génétique des populations , où l'évolution des populations d'un ancêtre commun implique des événements latents sur les arbres binaires. Ce modèle peut être traité par inférence bayésienne [approximative] via un algorithme appelé ABC, même s'il existe également des résolutions logicielles non bayésiennes .
  5. Cependant, même dans de tels cas, je ne pense pas que l'inférence bayésienne soit la seule solution possible. Les techniques d'apprentissage automatique comme les réseaux de neurones, les forêts aléatoires, l'apprentissage profond, peuvent être classées comme des méthodes fréquentistes car elles s'entraînent sur un échantillon par validation croisée, minimisant une erreur ou un critère de distance qui peut être considéré comme une attente [sous le vrai modèle] approximée par une moyenne d'échantillon. Par exemple, le modèle coalescent de Kingman peut également être géré par des résolutions logicielles non bayésiennes .
  6. Un dernier point est que, pour l'estimation ponctuelle, l'approche bayésienne pourrait bien produire des estimations de plug-in. Pour certaines fonctions de perte que j'ai appelées pertes intrinsèques , l'estimateur de Bayes de la transforméeh(θ) est la transformation h(θ^) de l'estimateur de Bayes θ.
Xi'an
la source
La réponse est bonne dans la mesure où elle va. Je m'oppose au point 5, car il attribue aux méthodes ML une performance supérieure qui n'a pas encore été justifiée par la théorie. De plus, que signifie "... vrai modèle ..."? Sans aucun doute, ces méthodes sont populaires, mais cette popularité est généralement justifiée par leur capacité à «évoluer». Malheureusement, de nombreuses informations diagnostiques offertes par les méthodes bayésiennes et fréquentistes non ML sont perdues lorsque de telles approches sont utilisées. En particulier, la validation croisée peut produire des taux d'erreur plus élevés que d'autres techniques Voir Efron, 1983, 1986, JASA.
Jan Galkowski
Merci. En fait, je ne donne pas aux méthodes ML des pouvoirs "supérieurs", mentionnez simplement que certaines réponses ML peuvent être proposées pour des modèles complexes. Et par «vrais modèles», j'entends l'évaluation des performances d'une méthode en supposant (à tort) que les données sont produites par ledit modèle. Ce qui est un défaut de la plupart des analyses statistiques imo.
Xi'an