Est-il vrai que les méthodes bayésiennes ne conviennent pas?

25

Est-il vrai que les méthodes bayésiennes ne conviennent pas? (J'ai vu des articles et des tutoriels faisant cette affirmation)

Par exemple, si nous appliquons un processus gaussien au MNIST (classification des chiffres manuscrits), mais que nous ne lui montrons qu'un seul échantillon, reviendra-t-il à la distribution précédente pour toutes les entrées différentes de cet échantillon unique, quelle que soit la différence?

MaxB
la source
pensais juste - existe-t-il une manière mathématiquement précise de définir le «sur-ajustement»? si vous le pouvez, il est probable que vous puissiez également intégrer des fonctionnalités dans une fonction de vraisemblance ou avant pour éviter que cela ne se produise. ma pensée est que cette notion ressemble aux «valeurs aberrantes».
probabilités

Réponses:

25

Non, ce n'est pas vrai. Les méthodes bayésiennes satureront certainement les données. Il y a quelques choses qui rendent les méthodes bayésiennes plus robustes contre le sur-ajustement et vous pouvez également les rendre plus fragiles.

La nature combinatoire des hypothèses bayésiennes, plutôt que des hypothèses binaires, permet des comparaisons multiples lorsque quelqu'un n'a pas le «vrai» modèle pour les méthodes d'hypothèse nulle. Un postérieur bayésien pénalise efficacement une augmentation de la structure du modèle telle que l'ajout de variables tout en récompensant les améliorations d'ajustement. Les pénalités et les gains ne sont pas des optimisations comme ce serait le cas dans les méthodes non bayésiennes, mais des changements de probabilités à partir de nouvelles informations.

Bien que cela donne généralement une méthodologie plus robuste, il existe une contrainte importante et qui utilise des distributions préalables appropriées. Bien qu'il y ait une tendance à vouloir imiter les méthodes fréquentistes en utilisant des prieurs plats, cela n'assure pas une solution appropriée. Il y a des articles sur le surapprentissage dans les méthodes bayésiennes et il me semble que le péché semble être d'essayer d'être "juste" avec les méthodes non bayésiennes en commençant par des prieurs strictement plats. La difficulté est que le prieur est important pour normaliser la probabilité.

Les modèles bayésiens sont des modèles intrinsèquement optimaux dans le sens de la recevabilité du terme de Wald, mais il y a un bogeyman caché là-dedans. Wald suppose que le prieur est votre vrai prieur et non pas un prieur que vous utilisez, afin que les rdacteurs ne vous dingent pas de mettre trop d'informations dedans. Ils ne sont pas optimaux au même sens que les modèles Frequentist. Les méthodes fréquentistes commencent par l'optimisation de la minimisation de la variance tout en restant non biaisées.

Il s'agit d'une optimisation coûteuse dans la mesure où elle rejette les informations et n'est pas intrinsèquement admissible au sens de Wald, bien qu'elle soit fréquemment admissible. Les modèles Frequentist fournissent donc un ajustement optimal aux données, étant donné l'impartialité. Les modèles bayésiens ne sont ni ajustés sans biais ni optimaux aux données. C'est le métier que vous faites pour minimiser le sur-ajustement.

Les modèles bayésiens sont des modèles intrinsèquement biaisés, à moins que des mesures spéciales ne soient prises pour les rendre non biaisés, qui correspondent généralement le moins bien aux données. Leur vertu est qu'ils n'utilisent jamais moins d'informations qu'une méthode alternative pour trouver le "vrai modèle" et cette information supplémentaire rend les modèles bayésiens jamais moins risqués que les modèles alternatifs, en particulier lorsqu'ils travaillent hors échantillon. Cela dit, il existera toujours un échantillon qui aurait pu être tiré au hasard et qui "tromperait" systématiquement la méthode bayésienne.

En ce qui concerne la deuxième partie de votre question, si vous deviez analyser un seul échantillon, la partie postérieure serait à jamais modifiée dans toutes ses parties et ne reviendrait pas à la précédente à moins qu'il n'y ait un deuxième échantillon qui annule exactement toutes les informations dans le premier échantillon. Du moins théoriquement, cela est vrai. En pratique, si le prieur est suffisamment informatif et l'observation suffisamment non informative, l'impact pourrait être si faible qu'un ordinateur ne pourrait pas mesurer les différences en raison de la limitation du nombre de chiffres significatifs. Il est possible qu'un effet soit trop petit pour qu'un ordinateur traite un changement dans le postérieur.

Donc, la réponse est «oui», vous pouvez suréquiper un échantillon en utilisant une méthode bayésienne, en particulier si vous avez un petit échantillon et des antécédents incorrects. La deuxième réponse est «non». Le théorème de Bayes n'oublie jamais l'impact des données antérieures, bien que l'effet puisse être si petit que vous le manquez par calcul.

Dave Harris
la source
2
Dans Ils commencent par l'optimisation de la minimisation de la variance tout en restant sans biais. , Ce qui est ils ?
Richard Hardy
Seuls quelques très rares modèles (essentiellement un ensemble avec mesure zéro) permettent la formation d'estimateurs non biaisés. Par exemple, dans un modèle normal , il n'y a pas d'estimateur non biaisé de . En effet, la plupart du temps nous maximisons une probabilité, nous nous retrouvons avec un estimateur biaisé. σN(θ,σ2)σ
Andrew M
1
@AndrewM: Il existe un estimateur non biaisé de dans un modèle normal - stats.stackexchange.com/a/251128/17230 . σ
Scortchi - Réintégrer Monica
11

Il faut savoir que, comme pratiquement partout ailleurs, un problème important dans les méthodes bayésiennes peut être une erreur de spécification du modèle.

C'est un point évident, mais je pensais que je partagerais toujours une histoire.

Une vignette de retour au premier cycle ...

Une application classique du filtrage des particules bayésien consiste à suivre l'emplacement d'un robot lorsqu'il se déplace dans une pièce. Le mouvement augmente l'incertitude tandis que les lectures du capteur réduisent l'incertitude.

Je me souviens d'avoir codé certaines routines pour ce faire. J'ai écrit un modèle raisonnable et théoriquement motivé pour la probabilité d'observer diverses lectures de sonar étant donné les vraies valeurs. Tout a été dérivé et codé avec précision. Ensuite, je vais le tester ...

Qu'est-il arrivé? Échec total! Pourquoi? Mon filtre à particules a rapidement pensé que les relevés du capteur avaient éliminé presque toute incertitude. Mon nuage de points s'est effondré à un point, mais mon robot n'était pas nécessairement à ce point!

Fondamentalement, ma fonction de probabilité était mauvaise; mes lectures de capteur n'étaient pas aussi informatives que je le pensais. J'étais en sur-ajustement. Une solution? J'ai mélangé une tonne de plus de bruit gaussien (de façon plutôt ad hoc), le nuage de points a cessé de s'effondrer, puis le filtrage a fonctionné plutôt bien.

Moral?

Comme Box l'a dit, "tous les modèles sont faux, mais certains sont utiles". Il est presque certain que vous n'aurez pas la véritable fonction de vraisemblance, et si elle est suffisamment désactivée, votre méthode bayésienne peut aller horriblement mal tourner et suréquiper.

L'ajout d'un a priori ne résout pas comme par magie les problèmes découlant de l'hypothèse que les observations sont IID quand elles ne le sont pas, en supposant que la probabilité a plus de courbure qu'elle ne le fait, etc.

Matthew Gunn
la source
3
"Une vignette de retour au premier cycle ... Une application classique du filtrage bayésien des particules consiste à suivre l'emplacement d'un robot lorsqu'il se déplace dans une pièce" ... whoa, où était votre premier cycle? :)
Cliff AB