Pourquoi les distributions de probabilité se multiplient-elles ici?

9

Soit par exemple votre nombre de jours restant à vivre. Un médecin 1 évalue la distribution de comme un gaussien: . Un autre médecin indépendant 2 évalue . Les deux médecins sont également fiables. Comment combiner les deux informations?XXP(X)N(μ1,σ1)P(X)N(μ2,σ2)

Dans cet article de blog , l'auteur dit que

Si nous avons deux probabilités et que nous voulons connaître les chances que les deux soient vraies, nous les multiplions simplement ensemble. Donc, on prend les deux blobs gaussiens et on les multiplie: entrez la description de l'image ici

Modifier La plupart des gens (j'ai d'abord posé cette question sur math.SE) ont répondu qu'il s'agit de la relation d'indépendance triviale mais j'ai toujours du mal à comprendre ce que serait et être dans ce contexte: probablement pas des événements tels que "les dés donneront un 3" ou "le patient est malade". De plus, il y a probablement quelque chose de plus, car le produit de deux densités n'est pas une densité de probabilité car en général . Ce n'est donc probablement pas aussi simple que cela.P(AB)=P(A)P(B)ABRP(x)21

Prenons un autre exemple. Un expert 1 vous dit qu'un dé est parfaitement équilibré. Un autre expert 2 vous dit, indépendamment la même chose. Alors la probabilité que les dés donnent un 3 n'est certainement pas .1/62

anderstood
la source

Réponses:

8

Ces opérations sont effectuées sur des vraisemblances plutôt que sur des probabilités. Bien que la distinction puisse être subtile, vous en avez identifié un aspect crucial: le produit de deux densités n'est jamais une densité.

La langue dans le blog fait allusion à cela - mais en même temps elle se trompe subtilement - alors analysons-la:

La moyenne de cette distribution est la configuration pour laquelle les deux estimations sont les plus probables, et est donc la meilleure estimation de la vraie configuration compte tenu de toutes les informations dont nous disposons.

  1. Nous avons déjà observé que le produit n'est pas une distribution. (Bien qu'il puisse être transformé en un via la multiplication par un nombre approprié, ce n'est pas ce qui se passe ici.)

  2. Les mots «estimations» et «meilleure estimation» indiquent que cette machine est utilisée pour estimer un paramètre - dans ce cas, la «configuration réelle» (coordonnées x, y).

  3. Malheureusement, la moyenne n'est pas la meilleure estimation. Le mode est. Il s'agit du principe du maximum de vraisemblance (ML).

Pour que l'explication du blog ait un sens, nous devons supposer ce qui suit. Tout d'abord, il y a un véritable emplacement précis. Appelons-le abstraitement . Deuxièmement, chaque "capteur" ne rapporte pas . Au lieu de cela, il signale une valeur susceptible d'être proche de . Le "gaussien" du capteur donne la densité de probabilité pour la distribution de . Pour être très clair, la densité du capteur est une fonction , en fonction de , avec la propriété que pour toute région (dans le plan), la probabilité que le capteur rapporte une valeur dans estμμXiμXiifiμRR

Pr(XiR)=Rfi(x;μ)dx.

Troisièmement, les deux capteurs sont supposés fonctionner avec une indépendance physique , ce qui suppose une indépendance statistique .

Par définition, la vraisemblance des deux observations est la densité de probabilité qu'elles auraient sous cette distribution conjointe, étant donné que l'emplacement réel est . L'hypothèse d'indépendance implique que c'est le produit des densités. Pour clarifier un point subtil,x1,x2μ

  1. La fonction produit qui attribue à une observation n'est pas une densité de probabilité pour ; cependant,f1(x;μ)f2(x;μ)xx

  2. Le produit est la densité de joint pour la paire ordonnée .f1(x1;μ)f2(x2;μ)(x1,x2)

Dans la figure affichée, est le centre d'une goutte, est le centre d'une autre et les points dans son espace représentent des valeurs possibles de . Notez que ni ni sont censés dire quoi que ce soit sur les probabilités de ! est juste une valeur fixe inconnue . Ce n'est pas une variable aléatoire.x1x2μf1f2μμ

Voici une autre tournure subtile: la probabilité est considérée comme une fonction de . Nous avons les données - nous essayons juste de comprendre ce que est susceptible d'être. Ainsi, ce que nous devons tracer est la fonction de vraisemblanceμμ

Λ(μ)=f1(x1;μ)f2(x2;μ).

C'est une coïncidence singulière que cela aussi soit un gaussien! La démonstration est révélatrice. Faisons le calcul dans une seule dimension (plutôt que deux ou plus) pour voir le motif - tout se généralise à plus de dimensions. Le logarithme d'un gaussien a la forme

logfi(xi;μ)=AiBi(xiμ)2

pour les constantes et . Ainsi, la probabilité logarithmique estAiBi

logΛ(μ)=A1B1(x1μ)2+A2B2(x2μ)2=C(B1+B2)(μB1x1+B2x2B1+B2)2

où ne dépend pas de . Il s'agit du log d'un gaussien où le rôle du a été remplacé par la moyenne pondérée indiquée dans la fraction.Cμxi

Revenons au fil principal. L'estimation ML de est cette valeur qui maximise la vraisemblance. De manière équivalente, il maximise ce gaussien que nous venons de dériver du produit des Gaussiens. Par définition, le maximum est un mode . C'est une coïncidence - résultant de la symétrie ponctuelle de chaque gaussien autour de son centre - que le mode coïncide avec la moyenne.μ


Cette analyse a révélé que plusieurs coïncidences dans la situation particulière ont obscurci les concepts sous-jacents:

  • une distribution multivariée (conjointe) était facilement confondue avec une distribution univariée (ce qui n'est pas le cas);

  • la vraisemblance ressemblait à une distribution de probabilité (ce qu'elle n'est pas);

  • le produit des gaussiens se trouve être gaussien (une régularité qui n'est généralement pas vraie lorsque les capteurs varient de manière non gaussienne);

  • et leur mode coïncide avec leur moyenne (qui n'est garantie que pour les capteurs avec des réponses symétriques autour des vraies valeurs).

Ce n'est qu'en se concentrant sur ces concepts et en supprimant les comportements fortuits que nous pouvons voir ce qui se passe réellement.

whuber
la source
1
Merci beaucoup pour cette merveilleuse réponse. Il semble que la question n'est pas aussi simple qu'il y paraît. Je me demandais vraiment pourquoi il était si difficile pour moi de comprendre le concept d'indépendance que je pensais bien connaître. Je vais prendre le temps de m'assurer que chaque point est clair.
anderstood
2
Prime virtuelle +150. Lorsque vous écrivez "le produit de deux densités n'est jamais une densité", qu'en est-il de la densité uniforme sur , ou de la densité rassemblée en 0? Ne serait-il pas (encore) préférable de dire "n'est génériquement pas une densité"? [0,1]
anderstood
1
Tu as raison. Je pensais à une inégalité qui peut devenir une égalité lorsque toutes les valeurs de la densité sont nulles, égales à un ou infinies. Vos contre-exemples sont tous de ce type.
whuber
6

Je vois déjà une excellente réponse mais je poste juste la mienne depuis que j'ai déjà commencé à l'écrire.

Le médecin 1 a ce modèle de prédiction:d1N(μ1,σ1)

Le médecin 2 a ce modèle de prédiction:d2N(μ2,σ2)

Donc, pour que nous puissions évaluer la probabilité conjointe nous devons seulement nous rendre compte que cela factorise en depuis raison de l'indépendance des deux médecins.P(d1,d2)=P(d1|d2)P(d2)P(d1)P(d2)P(d1|d2)=P(d1)

Dr. Mike
la source
2
Virtual +1 pour les détails soignés. Dommage que le système ne me permette pas de vous donner le vrai +1.
Chance
Comment définiriez-vous comme un événement? Par exemple, "les dés donnent un 3" est un événement, tout comme "gagner plus de 100". Ici , je ne peux pas formuler de la manière d'un tel, parce ne dispose pas d' un VFI, il est un VFI. Par exemple, je peux calculer la probabilité que j'ai jours pour vivre selon le médecin 1, mais quelle est la probabilité de ? d1d1xd1
anderstood
Peut-être que je suis confus parce que je comprends comme un événement, alors que c'est une variable aléatoire. Ensuite, est la variable aléatoire qui décrit le nombre de jours restants selon le médecin 1. Mais quelle est la signification de la probabilité conjointe de et est-ce un nombre réel dans ? Que faire si prend la valeur "3 jours" et prend la valeur "4 jours"? J'espère que mes questions vous aideront à comprendre ce qui me manque. d1d1P(d1,d2)[0,1]d1d2
anderstood
2
Étant donné que les Gaussiens sont des densités de probabilité et non des probabilités, cette explication est incomplète.
whuber