Comment le cadre bayésien est-il meilleur dans l'interprétation lorsque nous utilisons habituellement des priors non informatifs ou subjectifs?

18

On fait souvent valoir que le cadre bayésien a un grand avantage dans l'interprétation (sur fréquentiste), car il calcule la probabilité d'un paramètre étant donné les données - au lieu de comme dans le cadre fréquentiste. Jusqu'ici tout va bien.p ( x | θ )p(θ|x)p(x|θ)

Mais, toute l'équation sur laquelle elle est basée:

p(θ|x)=p(x|θ).p(θ)p(x)

me semble peu méfiant pour 2 raisons:

  1. Dans de nombreux articles, des valeurs a priori non informatives (distributions uniformes) sont utilisées, puis juste , de sorte que les bayésiens obtiennent le même résultat que les habitués - alors, comment le cadre bayésien est-il meilleur dans interprétation, lorsque la probabilité bayésienne postérieure et fréquentiste sont les mêmes distributions? Cela donne juste le même résultat.p(θ|x)=p(x|θ)

  2. Lorsque vous utilisez des prieurs informatifs, vous obtenez des résultats différents, mais le bayésien est affecté par le prior subjectif, donc l'ensemble a aussi la teinte subjective.p(θ|x)

En d'autres termes, tout l'argument selon lequel est meilleur en interprétation que repose sur une présomption que est une sorte de "réel", ce qui n'est normalement pas le cas, il est juste un point de départ que nous choisissons en quelque sorte pour faire fonctionner le MCMC, une présomption, mais ce n'est pas une description de la réalité (elle ne peut pas être définie je pense).p ( x | θ ) p ( θ )p(θ|x)p(x|θ)p(θ)

Alors, comment pouvons-nous affirmer que le bayésien est meilleur en interprétation?

Curieuse
la source
4
(1) semble suspect car sa conclusion est incorrecte: les résultats bayésiens avec des antérieurs non informatifs ne sont pas nécessairement les mêmes que les conclusions fréquentistes. En fait, dans de nombreux cas, il ne semble pas y avoir d'accord sur ce qu'est même un "prieur non informatif"! (2) est également discutable car il suppose implicitement que chaque hypothèse émise dans une analyse fréquentiste n'est pas subjective - mais ce n'est pas le cas. Enfin, qu'entendez-vous exactement par «mieux interprète»? Votre question est ambiguë sans définition de cela.
whuber
1
En plus du commentaire de whuber, je voudrais dire qu'il n'y a aucune raison générale pour laquelle Bayes est meilleur que fréquentiste, d'où l'argument. Parfois Bayes donne des résultats significatifs et parfois la voie fréquentiste est meilleure. Cependant, dans le domaine appliqué, il ne devrait pas y avoir de raison d'obtenir des résultats très différents. D'un point de vue philosophique, Bayes est définitivement fort, mais comme nous le savons tous, la théorie et la pratique diffèrent, parfois radicalement. De plus, je suis un peu préoccupé par votre premier paragraphe. Il me semble que vous êtes un Bayésien engagé (il n'y a rien de mal à cela.).
suncoolsu
Le titre ne devrait-il pas l'être uninformative or *objective* priors? Les subjectiveprieurs sont exactement des prieurs informatifs .
javadba

Réponses:

15

Pour donner une réponse plus étroite que les excellentes qui ont déjà été publiées et se concentrer sur l'avantage de l'interprétation - l'interprétation bayésienne d'un, par exemple, «intervalle crédible à 95%» est que la probabilité que la vraie valeur du paramètre se situe dans le l'intervalle est égal à 95%. L'une des deux interprétations fréquentistes fréquentes d'un, par exemple, "intervalle de confiance à 95%", même si numériquement les deux sont identiques, est qu'à long terme, si nous devions effectuer la procédure plusieurs fois, la fréquence à laquelle le l'intervalle couvrirait la valeur réelle convergerait à 95%. Le premier est intuitif, le second ne l'est pas. Essayez d'expliquer à un responsable un certain temps que vous ne pouvez pas dire "La probabilité que nos panneaux solaires se dégradent de moins de 20% sur 25 ans est de 95%", mais vous devez plutôt dire "

Une autre interprétation fréquentiste serait "Avant que les données ne soient générées, il y avait 5% de chances que l'intervalle que je calculerais en utilisant la procédure sur laquelle je me serais installé tomberait entièrement en dessous de la valeur réelle du paramètre. Cependant, maintenant que nous avons collecté les données, nous ne pouvons pas faire une telle déclaration, car nous ne sommes pas subjectivistes et la probabilité est soit 0 soit 1, selon qu'elle se situe ou non entièrement en dessous de la valeur réelle du paramètre. " Cela aidera les auditeurs et le calcul d'une réserve de garantie. (Je trouve en fait cette définition raisonnable, bien qu'elle ne soit généralement pas utile; elle n'est pas non plus facile à comprendre intuitivement, et surtout pas si vous n'êtes pas un statisticien.)

Aucune des interprétations fréquentistes n'est intuitive. La version bayésienne est. D'où le «gros avantage d'interprétation» détenu par l'approche bayésienne.

jbowman
la source
Mon problème avec l'argument anti-fréquentiste est qu'il essaie trop de décrire la procédure comme une réponse. Essayez la même expérience par vous-même en interprétation, mais quant à la conclusion à tirer des résultats. Comment voulez - vous exactement agissez différemment selon entendu les résultats donnés par un fréquentiste et bayésien? En réalité, vous allez toujours agir de la même façon lorsque vous comprenez les deux. Il n'est pas nécessaire d'aller au niveau de la procédure pour expliquer que "le mieux est d'agir tel ou tel sur la base de la confiance donnée par les données".
PascalVKooten
De plus, par définition, vous devrez faire plus d'explications dans le cas bayésien, car vous n'avez pas seulement "ce que les données nous disent" mais aussi quelles informations contient le prieur! Les bayésiens ont tendance à faire une longue explication fréquentiste, mais ils ne vont pas à expliquer quel prieur ils ont choisi, pourquoi ils ont choisi un prieur et spécifiquement pourquoi ce prieur.
PascalVKooten
Eh bien, je suis partiellement en désaccord avec votre dernier point. Par exemple, lorsque je faisais une analyse de fiabilité sur des équipements très, très chers dans mon travail précédent, nous avons traité les résultats de notre précédente analyse de fiabilité comme un précédent pour notre nouveau, pondéré en termes de "taille d'échantillon équivalente" à prendre en compte la non-stationnarité du monde réel et les petits changements dans la conception, etc. Et, vraiment, les statistiques bayésiennes consistent à mettre à jour votre a priori avec des données; les statistiques classiques ne sont pas "mises à jour", donc vous n'obtiendrez les mêmes résultats que si votre a priori est plat, à quelques exceptions près.
jbowman
Je voudrais simplement fusionner les ensembles de données et effectuer une autre analyse ... pas besoin de trouver un préalable. Il n'y a pas de meilleures données antérieures que les données antérieures réelles: vous obtenez une «vraie» donnée postérieure.
PascalVKooten
Eh bien, vous ne voudrez peut-être pas exactement le postérieur précédent pour votre nouveau prieur, dans notre cas en raison de modifications de conception mineures en cours et de notre connaissance du mfg. Le processus évoluait également, ce qui rend nos informations antérieures non 100% informatives pour les données futures. Il peut également y avoir des considérations d'exécution. Mais votre point est généralement bon, il me semble.
jbowman
13

À mon avis, la raison pour laquelle les statistiques bayésiennes sont "meilleures" pour l'interprétation n'est rien à voir avec les prieurs, mais est due à la définition d'une probabilité. La définition bayésienne (la plausibilité relative de la vérité d'une proposition) est plus en accord avec notre utilisation quotidienne du mot que la définition fréquentiste (la fréquence à long terme avec laquelle quelque chose se produit). Dans la plupart des situations pratiques, est ce que nous voulons réellement savoir, pas , et la difficulté survient avec les statistiques fréquentistes en raison d'une tendance à interpréter les résultats dans un calcul fréquentiste comme s'il étaient bayésiens, c'est-à-dire comme si c'étaitp(θ|x)p(x|θ)p(x|θ)p(θ|x) (par exemple l'erreur de valeur de p, ou interpréter un intervalle de confiance comme s'il s'agissait d'un intervalle crédible).

Notez que les priors informatifs ne sont pas nécessairement subjectifs, par exemple je ne considérerais pas comme une connaissance subjective d'affirmer que la connaissance préalable d'un certain système physique devrait être indépendante des unités de mesure (car elles sont essentiellement arbitraires), conduisant à l'idée de groupes de transformation et les antérieurs "peu informatifs".

L'inconvénient d'ignorer les connaissances subjectives est que votre système peut être sous-optimal parce que vous ignorez les connaissances d'experts, donc la subjectivité n'est pas nécessairement une mauvaise chose. Par exemple, dans le problème habituel de «déduire le biais d'une pièce», souvent utilisé comme exemple de motivation, vous apprendrez relativement lentement avec un a priori uniforme au fur et à mesure que les données arrivent. Mais toutes les quantités de biais sont-elles également vraisemblablement une hypothèse raisonnable? Non, il est facile de fabriquer une pièce légèrement biaisée, ou une pièce complètement biaisée (deux têtes ou deux tals), donc si nous construisons cette hypothèse dans notre analyse, via un prior subjectif, nous aurons besoin de moins de données pour identifier ce que le le biais est en fait.

Les analyses fréquentistes contiennent également souvent des éléments subjectifs (par exemple la décision de rejeter l'hypothèse nulle si la valeur p est inférieure à 0,05, il n'y a pas de contrainte logique pour le faire, c'est simplement une tradition qui s'est avérée utile). L'avantage de l'approche bayésienne est que la subjectivité est rendue explicite dans le calcul, plutôt que de la laisser implicite.

À la fin de la journée, il s'agit de «chevaux pour les cours», vous devez avoir les deux ensembles d'outils dans votre boîte à outils et être prêt à utiliser le meilleur outil pour la tâche à accomplir.

Cela dit, fréquentiste bayésien !!! ; oP

Dikran Marsupial
la source
6

Le cadre bayésien a un gros avantage sur le fréquentiste car il ne dépend pas d'avoir une "boule de cristal" en termes de connaissance des hypothèses de distribution correctes à faire. Les méthodes bayésiennes dépendent de l'utilisation des informations dont vous disposez et de la manière de coder ces informations dans une distribution de probabilité.

Utiliser des méthodes bayésiennes, c'est essentiellement utiliser la théorie des probabilités dans toute sa puissance. Le théorème de Bayes n'est rien d'autre qu'une reformulation de la règle de produit classique de la théorie des probabilités:

p(θx|I)=p(θ|I)p(x|θI)=p(x|I)p(θ|xI)

Tant que (c'est-à-dire que les informations antérieures ne disaient pas que ce qui avait été observé était impossible), nous pouvons le diviser et arriver à la theorm bayésienne. J'ai utilisé pour désigner l'information préalable, qui est toujours présente - vous ne pouvez pas attribuer une distribution de probabilité sans information.p(x|I)0I

Maintenant, si vous pensez que le théorème de Bayes est suspect, alors logiquement, vous devez également penser que la règle du produit est également suspecte. Vous pouvez trouver un argument déductif ici , qui dérive des règles de produit et de somme, similaire au théorème de Cox. Une liste plus explicite des hypothèses requises peut être trouvée ici .

Pour autant que je sache, l'inférence fréquentiste n'est pas basée sur un ensemble de fondements dans un cadre logique. Parce qu'il utilise les axiomes de probabilité de Kolmogorov, il ne semble pas y avoir de lien entre la théorie des probabilités et l'inférence statistique. Il n'y a pas d'axiomes pour l'inférence fréquentiste qui conduisent à une procédure à suivre. Il existe des principes et des méthodes (probabilité maximale, intervalles de confiance, valeurs de p, etc.), et ils fonctionnent bien, mais ils ont tendance à être isolés et spécialisés pour des problèmes particuliers. Je pense qu'il vaut mieux laisser les méthodes fréquentistes vagues dans leurs fondements, du moins en termes de cadre logique strict.

Pour le point , obtenir le même résultat n'est pas pertinent du point de vue de l'interprétation. Deux procédures peuvent conduire au même résultat, mais cela ne signifie pas nécessairement qu'elles sont équivalentes. Si je devais juste deviner et que je devais deviner l'estimation du maximum de vraisemblance (MLE), cela ne signifierait pas que ma supposition est aussi bonne que MLE.θ1θ

Pour le point , pourquoi craignez-vous que des personnes ayant des informations différentes parviennent à des conclusions différentes? Quelqu'un avec un doctorat en mathématiques pourrait, et devrait, tirer des conclusions différentes à quelqu'un avec des mathématiques de niveau secondaire. Ils ont différentes quantités d'informations - pourquoi devrions-nous nous attendre à ce qu'ils soient d'accord? Lorsque l'on vous présente des informations connues, vous avez tendance à changer d'avis. La quantité dépend du type d'informations qu'il s'agissait. Le théorème de Bayes contient cette fonctionnalité, comme il se doit.2

L'utilisation d'une a priori uniforme est souvent une approximation commode à faire lorsque la probabilité est forte par rapport à l'a priori. Il ne vaut parfois pas la peine de passer à travers et de configurer correctement un a priori. De même, ne faites pas l'erreur de confondre les statistiques bayésiennes avec MCMC. MCMC est juste un algorithme d'intégration, identique au quadratre guassien, et dans une classe similaire à l'approximation de Laplace. Il est un peu plus utile que quadratre car vous pouvez réutiliser la sortie de l'algorithme pour faire toutes vos intégrales (les moyennes et les variances postérieures sont intégrales), et un peu plus général que Laplace parce que vous n'avez pas besoin d'un gros échantillon, ou d'un pic bien arrondi à l'arrière (Laplace est cependant plus rapide).

probabilitéislogique
la source
3

J'ai généralement vu l'uniforme utilisé dans des exemples de type "instructif" ou dans des cas où l'on ne sait vraiment rien d'un hyperparamètre particulier. En règle générale, je vois des priors non informés qui fournissent peu d'informations sur ce que sera la solution, mais qui codent mathématiquement à quoi ressemble une bonne solution. Par exemple, on voit généralement un a priori gaussien (μ=0) placé sur un coefficient de régression, codant la connaissance que toutes choses étant égales par ailleurs, nous préférons des solutions dans lesquelles les coefficients ont des amplitudes plus faibles. Ceci afin d'éviter de sur-ajuster un ensemble de données, en trouvant des solutions qui maximisent la fonction objectif mais qui n'ont pas de sens dans le contexte particulier de notre problème. Dans un sens, ils fournissent un moyen de donner au modèle statistique quelques "indices" sur un domaine particulier.

Cependant, ce n'est pas (à mon avis) l'aspect le plus important des méthodologies bayésiennes. Les méthodes bayésiennes sont génératives, en ce qu'elles fournissent une «histoire» complète de la façon dont les données ont vu le jour. Ainsi, ils ne sont pas simplement des découvreurs de modèles, mais ils sont plutôt capables de prendre en compte la réalité complète de la situation actuelle. Par exemple, considérons LDA (allocation Dirichlet latente), qui fournit une histoire générative complète sur la façon dont un document texte est créé, qui ressemble à ceci:

  1. Sélectionnez une combinaison de sujets en fonction de la probabilité que des sujets particuliers coexistent; et
  2. Sélectionnez un ensemble de mots dans le vocabulaire, conditionné en fonction des sujets sélectionnés.

Ainsi, le modèle est adapté sur la base d'une compréhension très spécifique des objets du domaine (ici, des documents texte) et de la façon dont ils ont été créés; par conséquent, les informations que nous obtenons sont adaptées directement à notre domaine de problème (probabilités de mots sur des sujets donnés, probabilités que des sujets soient mentionnés ensemble, probabilités de documents contenant des sujets et dans quelle mesure, etc.). Le fait que le théorème de Bayes soit nécessaire pour ce faire est presque secondaire, d'où la petite blague: "Bayes ne serait pas bayésien et Christ ne serait pas chrétien".

En bref, les modèles bayésiens consistent à modéliser rigoureusement les objets du domaine à l'aide de distributions de probabilité; par conséquent, nous pouvons coder des connaissances qui autrement ne seraient pas disponibles avec une technique discriminante simple.

William
la source