Signification des notations de probabilité et

27

Quelle est la différence de sens entre la notation et qui sont couramment utilisées dans de nombreux livres et articles? P ( z | d , w )P(z;d,w)P(z|d,w)

Apprenant
la source
13
f (x; θ) est identique à f (x | θ), signifiant simplement que θ est un paramètre fixe et la fonction f est une fonction de x. f (x, Θ), OTOH, est un élément d'une famille (ensemble) de fonctions, où les éléments sont indexés par Θ. Une distinction subtile, peut-être, mais importante, en particulier. quand vient le temps d'estimer un paramètre inconnu θ sur la base de données connues x; à ce moment, θ varie et x est fixe, ce qui donne la "fonction de vraisemblance". Utilisation de "|" est plus courant chez les statisticiens, ";" parmi les mathématiciens.
jbowman
Oui jbowman est correct. On l'appelle parfois la densité de X donnée Θ.
Michael R. Chernick
@jbowman pourquoi ne pas poster ça comme réponse? Ma seule question est - pourquoi utiliseraient-ils les deux, mais je suppose que cela a quelque chose à voir avec le contexte (le "|" est utilisé avec "P" et le ";" avec " f ").
Abe
Bonne pensée, Abe; c'est probablement ça. f est plus générique, je suppose.
jbowman

Réponses:

12

Je crois que l'origine de ceci est le paradigme de vraisemblance (bien que je n'aie pas vérifié l'exactitude historique réelle des éléments ci-dessous, c'est une façon raisonnable de comprendre comment cela n'a pas été le cas).

Disons que dans un paramètre de régression, vous auriez une distribution: p (Y | x, beta) Ce qui signifie: la distribution de Y si vous connaissez (conditionnellement) les valeurs x et beta.

Si vous voulez estimer les bêtas, vous voulez maximiser la probabilité: L (bêta; y, x) = p (Y | x, bêta) Essentiellement, vous regardez maintenant l'expression p (Y | x, bêta) comme une fonction des bêta, mais à part cela, il n'y a pas de différence (pour les expressions mathématiques correctes que vous pouvez correctement dériver, c'est une nécessité --- bien qu'en pratique personne ne dérange).

Ensuite, dans les paramètres bayésiens, la différence entre les paramètres et les autres variables s'estompe rapidement, alors on a commencé à utiliser les deux notations en mélange.

Donc, en substance: il n'y a pas de différence réelle: ils indiquent tous les deux la distribution conditionnelle de la chose à gauche, conditionnelle à la (aux) chose (s) à droite.

Nick Sabbe
la source
23

est la densité de la variable aléatoire X au point x , θ étant le paramètre de la distribution. f ( x , θ ) est la densité conjointe de X etf(x;θ)Xxθf(x,θ)X au point ( x , θ ) et n'a de sens que si Θ est une variable aléatoire. f ( x | θ ) est la distribution conditionnelle de X étant donné Θ , et encore une fois, n'a de sens que siΘ(x,θ)Θf(x|θ)XΘ est une variable aléatoire. Cela deviendra beaucoup plus clair lorsque vous approfondirez le livre et examinerez l'analyse bayésienne.Θ

PeterR
la source
Uhhhh ... est la distribution conditionnelle de x donnée θ est parfaitement logique même si θf(x|θ)xθθ n'est pas une variable aléatoire. C'est à peu près la notation standard dans les statistiques classiques, où n'est pas une variable aléatoire. θ
jbowman
Uhhhh .... si vous interprétez cela pour signifier que P [Θ = θ] = 1 (gauche Θ est une variable aléatoire, droite θ est une constante) alors je suis d'accord. Sinon, je ne sais pas ... car que signifierait alors P [Θ = θ] dans le dénominateur de la définition de la distribution conditionnelle?
PeterR
Dénominateur? Je peux écrire f est une distribution normale sans référence à la règle de Bayes. μ et σ sont fixes. D'autres le font aussi, par exemple, ll.mit.edu/mission/communications/ist/publications/… . xf(x|μ,σ)fμσ
jbowman
jbowman, alors quelle est la définition de votre f (x | μ, σ) en tant que densité conditionnelle lorsque μ et σ sont des nombres fixes (c'est-à-dire pas des variables aléatoires)?
PeterR
1
Le mot "conditionnel", associé à la notation f (X | Y), est défini comme "conditionnel à la survenance d'un événement aléatoire". Si vous l'utilisez pour signifier autre chose, comme simplement "donné", comme dans "f (x) donné (valeurs spécifiques de) μ et σ", eh bien c'est ce que la notation f (x; μ, σ) est pour. Puisque l'OP demandait ce que signifie la notation, nous devrions être précis sur la notation dans la réponse.
PeterR
18

f(x;θ) est identique àf(x|θ) , signifiant simplement queθ est un paramètre fixe et la fonctionf est une fonction dex . f(x,Θ) , OTOH, est un élément d'une famille (ou ensemble) de fonctions, où les éléments sont indexés parΘ . Une distinction subtile, peut-être, mais importante, en particulier. quand vient le temps d'estimer un paramètre inconnuθ sur la base de données connuesx ; à ce moment,θ varie etxest fixe, ce qui donne la "fonction de vraisemblance". L'utilisation de est plus courante chez les statisticiens, tandis que ;parmi les mathématiciens.

jbowman
la source
1
Comment parlé verbalement? Dites-vous "f de x étant donné θ"? f(x;θ)
stackoverflowuser2010
@ stackoverflowuser2010 - oui, exactement ainsi.
jbowman
2
J'ai trouvé dans certaines vidéos de Coursera que le professeur de Stanford Andrew Ng verbalisait le point-virgule comme «paramétré par». Voir: class.coursera.org/ml-005/lecture/34 . Ainsi, l'exemple serait dit comme "f de x paramétré par thêta".
stackoverflowuser2010
5
Dire «donné» ou «conditionnel» est très différent (en général) de «paramétré». Je détesterais si quelqu'un voyait cela et pensait que les deux étaient équivalents. Dire "paramétré" n'est approprié que lorsque la quantité à conditionner est un paramètre indexant le pdf de la variable au premier terme. Pour deux variables (par exemple, f (x; y)), l'utilisation de ce terme serait incorrecte.
ATJ
2
@MikeWilliamson - Bien sûr, choisissez une notation où vous savez ce que tout signifie et respectez-le! De cette façon, lorsque vous revenez à quelque chose que vous avez fait plus tôt, comme 4 heures plus tôt dans mon expérience, vous n'avez pas à comprendre ce que vous vouliez dire lorsque vous avez utilisé ce "|". Je suis d'accord, c'est ennuyeux, mais après un certain temps, vous observez simplement la première utilisation de la notation et vous vous en souvenez pour le reste du papier / livre; les distinctions ne sont généralement pas ce qui est important, de toute façon.
jbowman
9

Bien que cela n'ait pas toujours été ainsi, ces jours-ci est généralement utilisé lorsque d , w ne sont pas des variables aléatoires (ce qui ne veut pas dire qu'elles sont nécessairement connues). P ( z | d , w ) indique un conditionnement sur les valeurs de d , w . Le conditionnement est une opération sur des variables aléatoires et en tant que tel en utilisant cette notation lorsque d ,P(z;d,w)d,wP(z|d,w)d,w ne sont pas des variables aléatoires est déroutant (et tragiquement courant).d,w

Comme le souligne @Nick Sabbe, est une notation courante pour la distribution d'échantillonnage des données observées y . Certains fréquentistes utiliseront cette notation mais insisteront sur le fait que Θ n'est pas une variable aléatoire, ce qui est un abus de l'OMI. Mais ils n'y ont aucun monopole; J'ai vu des Bayésiens le faire aussi, plaçant des hyperparamètres fixes à la fin des conditions.p(y|X,Θ)yΘ

JMS
la source
2
Concernant votre deuxième paragraphe, il convient de souligner que dans des situations statistiques typiques (par exemple, l'ajustement d'un modèle de régression), n'est pas non plus considéré comme une variable aléatoire, mais comme un ensemble de constantes connues. X
gung - Réintègre Monica