On fait souvent valoir que le cadre bayésien a un grand avantage dans l'interprétation (sur fréquentiste), car il calcule la probabilité d'un paramètre étant donné les données - au lieu de comme dans le cadre fréquentiste. Jusqu'ici tout va bien.p ( x | θ )
Mais, toute l'équation sur laquelle elle est basée:
me semble peu méfiant pour 2 raisons:
Dans de nombreux articles, des valeurs a priori non informatives (distributions uniformes) sont utilisées, puis juste , de sorte que les bayésiens obtiennent le même résultat que les habitués - alors, comment le cadre bayésien est-il meilleur dans interprétation, lorsque la probabilité bayésienne postérieure et fréquentiste sont les mêmes distributions? Cela donne juste le même résultat.
Lorsque vous utilisez des prieurs informatifs, vous obtenez des résultats différents, mais le bayésien est affecté par le prior subjectif, donc l'ensemble a aussi la teinte subjective.
En d'autres termes, tout l'argument selon lequel est meilleur en interprétation que repose sur une présomption que est une sorte de "réel", ce qui n'est normalement pas le cas, il est juste un point de départ que nous choisissons en quelque sorte pour faire fonctionner le MCMC, une présomption, mais ce n'est pas une description de la réalité (elle ne peut pas être définie je pense).p ( x | θ ) p ( θ )
Alors, comment pouvons-nous affirmer que le bayésien est meilleur en interprétation?
la source
uninformative or *objective* priors
? Lessubjective
prieurs sont exactement des prieurs informatifs .Réponses:
Pour donner une réponse plus étroite que les excellentes qui ont déjà été publiées et se concentrer sur l'avantage de l'interprétation - l'interprétation bayésienne d'un, par exemple, «intervalle crédible à 95%» est que la probabilité que la vraie valeur du paramètre se situe dans le l'intervalle est égal à 95%. L'une des deux interprétations fréquentistes fréquentes d'un, par exemple, "intervalle de confiance à 95%", même si numériquement les deux sont identiques, est qu'à long terme, si nous devions effectuer la procédure plusieurs fois, la fréquence à laquelle le l'intervalle couvrirait la valeur réelle convergerait à 95%. Le premier est intuitif, le second ne l'est pas. Essayez d'expliquer à un responsable un certain temps que vous ne pouvez pas dire "La probabilité que nos panneaux solaires se dégradent de moins de 20% sur 25 ans est de 95%", mais vous devez plutôt dire "
Une autre interprétation fréquentiste serait "Avant que les données ne soient générées, il y avait 5% de chances que l'intervalle que je calculerais en utilisant la procédure sur laquelle je me serais installé tomberait entièrement en dessous de la valeur réelle du paramètre. Cependant, maintenant que nous avons collecté les données, nous ne pouvons pas faire une telle déclaration, car nous ne sommes pas subjectivistes et la probabilité est soit 0 soit 1, selon qu'elle se situe ou non entièrement en dessous de la valeur réelle du paramètre. " Cela aidera les auditeurs et le calcul d'une réserve de garantie. (Je trouve en fait cette définition raisonnable, bien qu'elle ne soit généralement pas utile; elle n'est pas non plus facile à comprendre intuitivement, et surtout pas si vous n'êtes pas un statisticien.)
Aucune des interprétations fréquentistes n'est intuitive. La version bayésienne est. D'où le «gros avantage d'interprétation» détenu par l'approche bayésienne.
la source
À mon avis, la raison pour laquelle les statistiques bayésiennes sont "meilleures" pour l'interprétation n'est rien à voir avec les prieurs, mais est due à la définition d'une probabilité. La définition bayésienne (la plausibilité relative de la vérité d'une proposition) est plus en accord avec notre utilisation quotidienne du mot que la définition fréquentiste (la fréquence à long terme avec laquelle quelque chose se produit). Dans la plupart des situations pratiques, est ce que nous voulons réellement savoir, pas , et la difficulté survient avec les statistiques fréquentistes en raison d'une tendance à interpréter les résultats dans un calcul fréquentiste comme s'il étaient bayésiens, c'est-à-dire comme si c'étaitp ( θ | x ) p ( x | θ ) p ( x | θ ) p ( θ | x ) (par exemple l'erreur de valeur de p, ou interpréter un intervalle de confiance comme s'il s'agissait d'un intervalle crédible).
Notez que les priors informatifs ne sont pas nécessairement subjectifs, par exemple je ne considérerais pas comme une connaissance subjective d'affirmer que la connaissance préalable d'un certain système physique devrait être indépendante des unités de mesure (car elles sont essentiellement arbitraires), conduisant à l'idée de groupes de transformation et les antérieurs "peu informatifs".
L'inconvénient d'ignorer les connaissances subjectives est que votre système peut être sous-optimal parce que vous ignorez les connaissances d'experts, donc la subjectivité n'est pas nécessairement une mauvaise chose. Par exemple, dans le problème habituel de «déduire le biais d'une pièce», souvent utilisé comme exemple de motivation, vous apprendrez relativement lentement avec un a priori uniforme au fur et à mesure que les données arrivent. Mais toutes les quantités de biais sont-elles également vraisemblablement une hypothèse raisonnable? Non, il est facile de fabriquer une pièce légèrement biaisée, ou une pièce complètement biaisée (deux têtes ou deux tals), donc si nous construisons cette hypothèse dans notre analyse, via un prior subjectif, nous aurons besoin de moins de données pour identifier ce que le le biais est en fait.
Les analyses fréquentistes contiennent également souvent des éléments subjectifs (par exemple la décision de rejeter l'hypothèse nulle si la valeur p est inférieure à 0,05, il n'y a pas de contrainte logique pour le faire, c'est simplement une tradition qui s'est avérée utile). L'avantage de l'approche bayésienne est que la subjectivité est rendue explicite dans le calcul, plutôt que de la laisser implicite.
À la fin de la journée, il s'agit de «chevaux pour les cours», vous devez avoir les deux ensembles d'outils dans votre boîte à outils et être prêt à utiliser le meilleur outil pour la tâche à accomplir.
Cela dit, fréquentiste bayésien !!! ; oP≫
la source
Le cadre bayésien a un gros avantage sur le fréquentiste car il ne dépend pas d'avoir une "boule de cristal" en termes de connaissance des hypothèses de distribution correctes à faire. Les méthodes bayésiennes dépendent de l'utilisation des informations dont vous disposez et de la manière de coder ces informations dans une distribution de probabilité.
Utiliser des méthodes bayésiennes, c'est essentiellement utiliser la théorie des probabilités dans toute sa puissance. Le théorème de Bayes n'est rien d'autre qu'une reformulation de la règle de produit classique de la théorie des probabilités:
Tant que (c'est-à-dire que les informations antérieures ne disaient pas que ce qui avait été observé était impossible), nous pouvons le diviser et arriver à la theorm bayésienne. J'ai utilisé pour désigner l'information préalable, qui est toujours présente - vous ne pouvez pas attribuer une distribution de probabilité sans information.p ( x | I) ≠ 0 je
Maintenant, si vous pensez que le théorème de Bayes est suspect, alors logiquement, vous devez également penser que la règle du produit est également suspecte. Vous pouvez trouver un argument déductif ici , qui dérive des règles de produit et de somme, similaire au théorème de Cox. Une liste plus explicite des hypothèses requises peut être trouvée ici .
Pour autant que je sache, l'inférence fréquentiste n'est pas basée sur un ensemble de fondements dans un cadre logique. Parce qu'il utilise les axiomes de probabilité de Kolmogorov, il ne semble pas y avoir de lien entre la théorie des probabilités et l'inférence statistique. Il n'y a pas d'axiomes pour l'inférence fréquentiste qui conduisent à une procédure à suivre. Il existe des principes et des méthodes (probabilité maximale, intervalles de confiance, valeurs de p, etc.), et ils fonctionnent bien, mais ils ont tendance à être isolés et spécialisés pour des problèmes particuliers. Je pense qu'il vaut mieux laisser les méthodes fréquentistes vagues dans leurs fondements, du moins en termes de cadre logique strict.
Pour le point , obtenir le même résultat n'est pas pertinent du point de vue de l'interprétation. Deux procédures peuvent conduire au même résultat, mais cela ne signifie pas nécessairement qu'elles sont équivalentes. Si je devais juste deviner et que je devais deviner l'estimation du maximum de vraisemblance (MLE), cela ne signifierait pas que ma supposition est aussi bonne que MLE.θ1 θ
Pour le point , pourquoi craignez-vous que des personnes ayant des informations différentes parviennent à des conclusions différentes? Quelqu'un avec un doctorat en mathématiques pourrait, et devrait, tirer des conclusions différentes à quelqu'un avec des mathématiques de niveau secondaire. Ils ont différentes quantités d'informations - pourquoi devrions-nous nous attendre à ce qu'ils soient d'accord? Lorsque l'on vous présente des informations connues, vous avez tendance à changer d'avis. La quantité dépend du type d'informations qu'il s'agissait. Le théorème de Bayes contient cette fonctionnalité, comme il se doit.2
L'utilisation d'une a priori uniforme est souvent une approximation commode à faire lorsque la probabilité est forte par rapport à l'a priori. Il ne vaut parfois pas la peine de passer à travers et de configurer correctement un a priori. De même, ne faites pas l'erreur de confondre les statistiques bayésiennes avec MCMC. MCMC est juste un algorithme d'intégration, identique au quadratre guassien, et dans une classe similaire à l'approximation de Laplace. Il est un peu plus utile que quadratre car vous pouvez réutiliser la sortie de l'algorithme pour faire toutes vos intégrales (les moyennes et les variances postérieures sont intégrales), et un peu plus général que Laplace parce que vous n'avez pas besoin d'un gros échantillon, ou d'un pic bien arrondi à l'arrière (Laplace est cependant plus rapide).
la source
J'ai généralement vu l'uniforme utilisé dans des exemples de type "instructif" ou dans des cas où l'on ne sait vraiment rien d'un hyperparamètre particulier. En règle générale, je vois des priors non informés qui fournissent peu d'informations sur ce que sera la solution, mais qui codent mathématiquement à quoi ressemble une bonne solution. Par exemple, on voit généralement un a priori gaussien (μ=0 ) placé sur un coefficient de régression, codant la connaissance que toutes choses étant égales par ailleurs, nous préférons des solutions dans lesquelles les coefficients ont des amplitudes plus faibles. Ceci afin d'éviter de sur-ajuster un ensemble de données, en trouvant des solutions qui maximisent la fonction objectif mais qui n'ont pas de sens dans le contexte particulier de notre problème. Dans un sens, ils fournissent un moyen de donner au modèle statistique quelques "indices" sur un domaine particulier.
Cependant, ce n'est pas (à mon avis) l'aspect le plus important des méthodologies bayésiennes. Les méthodes bayésiennes sont génératives, en ce qu'elles fournissent une «histoire» complète de la façon dont les données ont vu le jour. Ainsi, ils ne sont pas simplement des découvreurs de modèles, mais ils sont plutôt capables de prendre en compte la réalité complète de la situation actuelle. Par exemple, considérons LDA (allocation Dirichlet latente), qui fournit une histoire générative complète sur la façon dont un document texte est créé, qui ressemble à ceci:
Ainsi, le modèle est adapté sur la base d'une compréhension très spécifique des objets du domaine (ici, des documents texte) et de la façon dont ils ont été créés; par conséquent, les informations que nous obtenons sont adaptées directement à notre domaine de problème (probabilités de mots sur des sujets donnés, probabilités que des sujets soient mentionnés ensemble, probabilités de documents contenant des sujets et dans quelle mesure, etc.). Le fait que le théorème de Bayes soit nécessaire pour ce faire est presque secondaire, d'où la petite blague: "Bayes ne serait pas bayésien et Christ ne serait pas chrétien".
En bref, les modèles bayésiens consistent à modéliser rigoureusement les objets du domaine à l'aide de distributions de probabilité; par conséquent, nous pouvons coder des connaissances qui autrement ne seraient pas disponibles avec une technique discriminante simple.
la source