Comment les statistiques bayésiennes gèrent-elles l'absence de prieurs?

16

Cette question a été inspirée par deux interactions récentes que j'ai eues, l'une ici dans CV , l'autre sur economics.se.

Là, j'avais posté une réponse au fameux "paradoxe de l'enveloppe" (rappelez-vous, non pas comme la "bonne réponse" mais comme la réponse découlant d'hypothèses spécifiques sur la structure de la situation). Après un certain temps, un utilisateur a publié un commentaire critique, et j'ai engagé une conversation en essayant de comprendre son point. Il était évident qu'il pensait à la manière bayésienne, et continuait à parler des prieurs - et puis cela m'est apparu, et je me suis dit: "Attendez une minute, qui a dit quoi que ce soit avant? De la manière dont j'ai formulé le problème, il n'y a pas de priors ici, ils n'entrent simplement pas dans l'image, et n'ont pas besoin de le faire ".

Récemment, j'ai vu cette réponse ici dans CV, sur le sens de l'indépendance statistique. J'ai fait remarquer à l'auteur que sa phrase

"... si les événements sont statistiquement indépendants, alors (par définition) nous ne pouvons pas en apprendre un sur l'observation de l'autre."

était manifestement faux. Dans un échange de commentaires, il a continué à revenir sur la question de (ses mots)

"Apprendre" ne signifierait-il pas changer nos croyances sur une chose en se basant sur l'observation d'une autre? Si oui, l'indépendance (définitionnelle) ne l'empêche-t-elle pas?

Encore une fois, il était évident qu'il pensait à la manière bayésienne, et qu'il considérait comme évident que nous commençons par certaines croyances (c'est-à-dire un précédent) , puis la question est de savoir comment nous pouvons les modifier / les mettre à jour. Mais comment se crée la première-première croyance?

Puisque la science doit se conformer à la réalité, je note que des situations existent où les êtres humains impliqués n'ont pas de prieurs (pour une chose, je marche dans des situations sans préalable tout le temps - et je vous en prie, ne prétendez pas que j'ai des priors mais je ne vous en rendez pas compte, épargnons-nous ici la psychanalyse bidon).

Depuis que j'ai entendu le terme "prieurs non informatifs", je romps ma question en deux parties, et je suis à peu près certain que les utilisateurs ici qui connaissent la théorie bayésienne savent exactement ce que je vais demander:

Q1: L'absence d'un a priori équivalent (au sens théorique strict) à un a priori non informatif?

Si la réponse à Q1 est "Oui" (avec quelques précisions, s'il vous plaît), cela signifie que l'approche bayésienne est applicable universellement et dès le début , car dans tous les cas, l'être humain impliqué déclare "Je n'ai pas de prieurs", nous pouvons compléter dans sa place un a priori qui n'est pas informatif pour le cas d'espèce.

Mais si la réponse à Q1 est "Non", alors Q2 arrive:

Q2: Si la réponse à Q1 est "Non", cela signifie-t-il que, dans les cas où il n'y a pas de prieurs, l'approche bayésienne n'est pas applicable dès le début, et nous devons d'abord former un a priori d'une manière non bayésienne, afin que nous puissions ensuite appliquer l'approche bayésienne?

bayesian mathematical-statistics prior theory philosophical Alecos Papadopoulos
la source

2

Je noterai qu'en tant que scientifique "aucune croyance préalable" est une déclaration assez extrémiste ... semblable à ne voir que la "neige" statique d'un vieux téléviseur analogique réglé sur une station morte, et à n'entendre que du bruit blanc. Manifestement, les scientifiques ne croient pas que rien dans le monde ne se rapporte à quoi que ce soit ou ne porte des informations sur quoi que ce soit ... si nous croyons que nous ne serions pas des scientifiques. Bien sûr, l'articulation bayésienne de «non informatif» porte des croyances très générales sur la possibilité et la probabilité.

Alexis

2

@Alexis Dépend de la situation. Par exemple , dans le « enveloppent Paradox » la question est, après avoir regardé le montant d' une enveloppe contient, si j'avais aucune croyance avant de savoir si ce que je regarde le montant « grande » ou « petite » quantité. Et je ne vois rien d'extrême à déclarer ici "je n'ai aucune croyance préalable en la matière".

Alecos Papadopoulos

1

Croyez-vous au préalable qu'il existe des montants et qu'ils sont répartis entre les enveloppes? (Même si vous êtes agnostique quant à la distribution spécifique ou à son paramétrage?)

Alexis

1

@Alexis Bien sûr, mais il est formulé comme une connaissance structurelle qui existe indépendamment des informations ultérieures. Ce n'est pas une croyance qui doit être mise à jour. Et puisque cette formulation reflète la perception d'au moins un membre de la race humaine (moi-même), il s'agit d'une situation réelle, et la question est de savoir si elle est considérée comme pouvant ou non faire l'objet d'une analyse bayésienne. Bien sûr, pour une autre personne qui déclare "J'ai la conviction préalable suivante concernant la répartition des montants entre les enveloppes", l'applicabilité de l'approche bayésienne est évidente.

Alecos Papadopoulos

2

Vous semblez croire qu'il n'y a PAS de précédent ou qu'il y a LE prieur. Dans une modélisation bayésienne telle que je la vois, l'analyse postérieure est conditionnelle ou relative au choix de A priori et je n'utilise pas ce prior comme absolu. Mon a priori est un moyen naturel d'introduire une structure de probabilité et de mesurer sur l'espace des paramètres.

Xi'an

11

Q1: L'absence d'un a priori équivalent (au sens théorique strict) à un a priori non informatif?

Non.

Premièrement, il n'y a pas de définition mathématique d'un «a priori non informatif». Ce mot n'est utilisé que de manière informelle pour décrire certains prieurs.

Par exemple, le prieur de Jeffrey est souvent appelé «non informatif». Ce prior généralise le prior uniforme pour les problèmes invariants de traduction. Le prieur de Jeffrey s'adapte en quelque sorte à la géométrie riemannienne (théorique de l'information) du modèle et est donc indépendant de la paramétrisation, ne dépendant que de la géométrie de la variété (dans l'espace des distributions) qu'est le modèle. Cela peut être perçu comme canonique, mais ce n'est qu'un choix. C'est juste l'uniforme antérieur selon la structure riemannienne. Il n'est pas absurde de définir «non informatif = uniforme» comme une simplification de la question. Cela s'applique à de nombreux cas et permet de poser une question claire et simple.

$E(X)$ $X$ $X$ $[0;1]$

Les approches bayésienne et fréquentiste répondent simplement à différentes questions. Par exemple, à propos des estimateurs qui est peut-être le plus simple:

$\theta$ $x$ $\theta$
$\theta$ $\theta$

D'une manière ou d'une autre, le fréquentiste vise le pire des cas et n'a pas besoin d'un préalable. Le bayésien vise un contrôle moyen et nécessite un avant de dire "moyen dans quel sens?".

Q2: Si la réponse à Q1 est "Non", cela signifie-t-il que, dans les cas où il n'y a pas de prieurs, l'approche bayésienne n'est pas applicable dès le début, et nous devons d'abord former un a priori d'une manière non bayésienne, afin que nous puissions ensuite appliquer l'approche bayésienne?

Oui.

Mais attention à la construction canonique préalable. Cela peut sembler mathématiquement attrayant mais n'est pas automatiquement réaliste d'un point de vue bayésien. Il est possible qu'un a priori mathématiquement agréable corresponde en fait à un système de croyance stupide. Par exemple, si vous étudiez $X\sim N(\mu,1)$ $\mu$

De vrais problèmes avec les spécifications antérieures se produisent dans des problèmes plus compliqués à mon avis. L'important ici est de comprendre ce que dit un certain prieur.

Benoit Sanchez
la source

2

(+1) Merci, c'est vraiment instructif.

Alecos Papadopoulos

4

Tout d'abord, l'approche bayésienne est souvent utilisée car vous souhaitez inclure des connaissances préalables dans votre modèle pour l'enrichir. Si vous n'avez aucune connaissance préalable, alors vous vous en tenez aux soi-disant prières informatives "non informatives" ou hebdomadaires. Notez que la priorité uniforme n'est pas «non informative» par définition, car l'hypothèse sur l'uniformité est une hypothèse. Il n'y a rien de tel qu'un préalable vraiment non informatif. Il y a des cas où "cela pourrait être n'importe quoi" est une hypothèse préalable raisonnable "non informative", mais il y a aussi des cas où affirmer que "toutes les valeurs sont également probables" est une hypothèse très forte et déraisonnable. Par exemple, si vous supposiez que ma taille pouvait être comprise entre 0 et 3 mètres, toutes les valeurs étant également probables a priori, ce ne serait pas une hypothèse raisonnable et cela donnerait trop de poids aux valeurs extrêmes, de sorte qu'il pourrait éventuellement déformer votre postérieur.

D'un autre côté, Bayesian dirait qu'il n'y a vraiment aucune situation où vous n'avez aucune connaissance ou croyance préalable. Vous pouvez toujours supposer quelque chose et en tant qu'être humain, vous le faites tout le temps (les psychologues et les économistes comportementaux ont fait des tonnes de recherches sur ce sujet). Toute l'agitation bayésienne avec les prieurs consiste à quantifier ces idées préconçues et à les énoncer explicitement dans votre modèle, car l'inférence bayésienne consiste à mettre à jour vos croyances .

Il est facile de trouver des arguments "pas d'hypothèses préalables", ou des a priori uniformes, pour des problèmes abstraits, mais pour des problèmes réels, vous auriez des connaissances préalables. Si vous deviez parier sur le montant d'argent dans une enveloppe, vous savez que le montant doit être non négatif et limité. Vous pourriez également faire une supposition éclairée sur la limite supérieure du montant possible de l'argent compte tenu de vos connaissances sur les règles du concours, des fonds disponibles pour votre adversaire, de la taille physique de l'enveloppe et du montant d'argent qui pourrait convenir physiquement. dedans, etc. Vous pouvez également deviner le montant d'argent que votre adversaire pourrait être prêt à mettre dans l'enveloppe et éventuellement perdre. Il y a beaucoup de choses que vous sauriez comme base pour votre a priori.

Tim
la source

2

@AlecosPapadopoulos désolé de ne pas avoir dit ce que vous vouliez entendre, mais je pense que cela fait partie de la réponse à votre question. En ce qui concerne Q1, évidemment, supposer un prior uniforme n'est pas la même chose que ne pas supposer un précédent, puisque vous avez fait une hypothèse. Si vous ne voulez pas utiliser du tout de priors, utilisez le maximum de vraisemblance ou l'approche empirique de Bayes.

Tim

2

Qu'est-ce que je "voulais entendre"? Si je comprends bien, lorsqu'une personne pose une question ici, on peut raisonnablement s'attendre à ce que la réponse porte sur la question. Il n'y a rien de particulier que je "voulais entendre" (pas de priors ici aussi), j'ai juste cherché des réponses à des questions spécifiques, et mon commentaire était de ne pas voir de quelle manière votre réponse répondait à mes questions. Mais dans votre commentaire, je pense qu'il y a quelque chose de vraiment pertinent: "l'approche empirique des Bayes"? Pouvez-vous mentionner / pointer vers de la littérature?

Alecos Papadopoulos

3

@AlecosPapadopoulos empirique Bayes choisit vos priors en fonction des données (c'est-à-dire la triche). Vous pouvez commencer avec Wikipedia ou des articles par Efron (facilement googlable sur Google scholar).

Tim

2

Supposons que vous ayez commencé un problème lundi et que vous aviez un précédent, disons normal normal. Donc, vous le branchez à vos données, exécutez l'analyse, apprenez quelque chose. Mardi, vous ne pouvez plus utiliser cela avant, car vous avez déjà appris quelque chose. Donc, vous devez vraiment brancher un autre avant. Ainsi, en strict bayésien, les prieurs sont à usage unique. Vous pouvez littéralement les exécuter via le logiciel UNE FOIS. Au moment où vous obtenez les résultats, le précédent est expiré, sauf si vous n'avez rien appris. Donc, dans un sens pratique, l'approche bayésienne est inutilisable dans sa forme pure, tous les bayésiens se trompent constamment

Aksakal

3

@Aksakal Mais pourquoi est invalide d'utiliser, mardi, comme mon nouveau prieur, le postérieur que j'ai obtenu lundi? Pour moi, c'est une procédure séquentielle totalement valable. Je ne comprends donc pas pourquoi vous écrivez "Les Bayésiens se trompent constamment".

Alecos Papadopoulos

3

question 1 Je pense que la réponse est probablement non. Ma raison est que nous n'avons pas vraiment de définition de «non informatif», sauf pour mesurer en quelque sorte la distance entre la réponse finale et un modèle / probabilité arbitrairement informatif. De nombreux priors non informatifs sont validés par rapport à des exemples "intuitifs" où nous avons déjà à l'esprit "le modèle / la probabilité" et "la réponse". Nous demandons ensuite à l'informateur avant de nous donner la réponse que nous voulons.

Mon problème avec cela est que j'ai du mal à croire que quelqu'un peut avoir un modèle ou une structure de modèle vraiment bon et bien informé pour sa population, et en même temps "aucune information" sur les valeurs de paramètres probables et improbables pour ce modèle. Par exemple, en utilisant la régression logistique, voir "UNE DISTRIBUTION PRIORITAIRE FAIBLEMENT INFORMATIVE. POUR LES MODÈLES LOGISTIQUES ET AUTRES MODÈLES DE RÉGRESSION"

Je pense que l'uniforme discret a priori est le seul que nous pourrions raisonnablement dire est le "premier-premier" prieur. Mais vous rencontrez des problèmes d'utilisation, en pensant que vous n'avez "aucune information", mais en réagissant soudainement à des réponses "non intuitives" (indice: si vous n'aimez pas une réponse bayésienne - vous pourriez avoir omis des informations de la précédente ou probabilité!). Un autre problème que vous rencontrez est d'obtenir la bonne discrétisation pour votre problème. Et même en pensant à cela, vous devez connaître le nombre de valeurs discrètes pour appliquer l'uniforme discret avant.

Une autre propriété à considérer pour votre précédent est le "comportement de queue" par rapport à la probabilité que vous utilisez.

à la question 2

Sur le plan conceptuel, je ne vois rien de mal à spécifier une distribution sans l'utilisation d'un précédent ou d'une vraisemblance. Vous pouvez démarrer un problème en disant "mon pdf est ... et je veux calculer ... par rapport à ce pdf". Ensuite, vous créez une contrainte pour le précédent, le prédictif antérieur et la vraisemblance. La méthode bayésienne est pour quand vous avez un a priori et une vraisemblance, et que vous voulez les combiner en une distribution postérieure.

Il s'agit probablement d'être clair sur vos probabilités. Ensuite, l'argument passe à "ce pdf / pmf représente-t-il ce que je dis qu'il représente?" - quel est l'espace dans lequel vous voulez être, je pense. À partir de votre exemple, vous dites que la distribution unique reflète toutes les informations disponibles - il n'y a pas de "préalable" car elle est déjà contenue (implicitement) dans la distribution que vous utilisez.

$U (0,1)$ $Bin(n,p)$ $Beta (0,0)$ $2$ $1$

sur le soi-disant commentaire manifestement faux

Pour être honnête, je serais très intéressé de voir comment n'importe quel engourdissement d'observation pourrait être utilisé pour prédire une observation "statistiquement indépendante". Par exemple, si je vous dis que je vais générer 100 variables normales standard. Je vous donne 99, et je vous demande de me donner votre meilleure prédiction pour le 100e. Je dis que vous ne pouvez pas faire une meilleure prédiction pour le 100e que 0. Mais c'est la même chose que vous prédiriez pour le 100e si je ne vous donnais aucune donnée. Par conséquent, vous n'apprenez rien des 99 points de données.

Cependant, si je vous dis qu'il s'agissait d'une "distribution normale", vous pouvez utiliser les 99 points de données pour estimer les paramètres. Ensuite, les données ne sont plus «statistiquement indépendantes», car nous en apprenons davantage sur la structure commune à mesure que nous observons plus de données. Votre meilleure prédiction utilise désormais les 99 points de données

probabilitéislogique
la source

1

(+1) Merci pour votre réponse réfléchie. Une clarification concernant l'affirmation "manifestement erronée": elle a été faite parce que "apprendre" (et je parle du sens général du mot) est un concept beaucoup plus large que "prédire". Si deux événements sont structurellement similaires, nous pouvons apprendre des choses liées à l'un en étudiant l'autre, même s'ils peuvent être statistiquement indépendants. Vous parlez également de la "structure commune" dans votre réponse, c'est tout ce qu'il y a à faire.

Alecos Papadopoulos

@Alecos Papadopoulos - le fait est que vous ne pouvez pas apprendre sans rendre les choses statistiquement dépendantes. En prenant mon exemple, qu'est-ce qui peut être appris dans le scénario 1. De plus, la structure commune doit être inconnue, pas seulement présente.

probabilitéslog

1

Commentant la dernière phrase de votre message, le fait que nous puissions apprendre quelque chose sur la structure commune comme vous le signalez, ne rend pas les variables aléatoires impliquées "statistiquement dépendantes". Ils restent "indépendants en probabilité", ce qui est une autre façon de dire "statistiquement indépendants", un concept qui a une signification mathématique très précise. Le fait qu'ils partagent des caractéristiques communes (ici, leur gamme est caractérisée par la même distribution de probabilité) ne les rend pas statistiquement dépendants.

Alecos Papadopoulos

Votre formulation "indépendant dans la probabilité" n'est pas claire pour moi, et je soupçonne que c'est pourquoi je suis en désaccord avec ce que vous dites. Si cela est remplacé par «conditionnellement indépendant» ou «échangeable», alors ce que vous dites est logique. J'attends également quelque chose qui pourrait être appris de 99 iid rvs standard standard qui aide avec le 100e (pas besoin d'être sur la prédiction).

probabilislogic

1

@probabilisticlogic "Indépendant en probabilité" est une expression que l'on retrouve généralement dans des ouvrages plus anciens et qui signifie ce que signifie l'indépendance statistique exprimée par les fonctions de distribution. Les 99 RV me permettront d'apprendre toutes sortes de propriétés, caractéristiques, etc. du 100e, moments, quantiles, vous l'appelez.

Alecos Papadopoulos

3

Ce n'est qu'une brève remarque en plus des autres excellentes réponses. Souvent, ou du moins parfois, il est quelque peu arbitraire (ou conventionnel) quelle partie des informations entrant dans une analyse statistique est appelée données et quelle partie est appelée avant . Ou, plus généralement, nous pouvons dire que les informations d'une analyse statistique proviennent de trois sources: le modèle , les données et l'a priori . Dans certains cas, comme les modèles linéaires ou les glm, la séparation est assez claire, du moins conventionnellement.

Je vais réutiliser un exemple tiré de l' estimation du maximum de vraisemblance (MLE) en termes simples pour illustrer mon propos. Supposons qu'un patient entre dans le cabinet d'un médecin, avec certains problèmes médicaux qui s'avèrent difficiles à diagnostiquer. Ce médecin n'a jamais vu quelque chose de similaire auparavant. Puis, en discutant avec le patient, il fait apparaître de nouvelles informations: ce patient a récemment visité l'Afrique tropicale. Il apparaît alors au médecin que cela pourrait être le paludisme ou une autre maladie tropicale. Mais notez que ces informations sont clairement pour nous des données, mais au moins dans de nombreux modèles statistiques qui pourraient être utilisés, il entrera dans l'analyse sous la forme d'une distribution antérieure, une distribution antérieure donnant une probabilité plus élevée à certaines maladies tropicales. Mais nous pourrions peut-être créer un modèle (plus grand) et plus complet, où ces informations entreront sous forme de données. Ainsi, au moins en partie, la distinction données / a priori est classique.

Nous sommes habitués et acceptons cette convention en raison de l'accent que nous mettons sur certaines classes de modèles conventionnels. Mais, dans le cadre plus large des choses, en dehors du monde des modèles statistiques stylisés, la situation est moins claire.

kjetil b halvorsen
la source

Comment les statistiques bayésiennes gèrent-elles l'absence de prieurs?

Réponses: