Transformations de densité de probabilité différentes dues au facteur jacobien

Dans Bishop's Pattern Recognition and Machine Learning, j'ai lu ce qui suit, juste après l' introduction de la densité de probabilité : $p(x\in(a,b))=\int_a^bp(x)\textrm{d}x$

Sous un changement de variable non linéaire, une densité de probabilité se transforme différemment d'une fonction simple, en raison du facteur jacobien. Par exemple, si nous considérons un changement de variables , alors une fonction devient . Considérons maintenant une densité de probabilité qui correspond à une densité par rapport à la nouvelle variable , où les suf ﬁ ces dénotent le fait que et sont des densités différentes. Les observations se situant dans la plage seront, pour les petites valeurs de , transformées dans la plage $x = g(y)$ $f(x)$ $\tilde{f}(y) = f(g(y))$ $p_x(x)$ $p_y(y)$ $y$ $p_x(x)$ $p_y(y)$ $(x, x + \delta x)$ $\delta x$ $(y, y + \delta y$ ) où $p_x(x)\delta x \simeq p_y(y)δy$ , et donc $p_y(y) = p_x(x) |\frac{dx}{dy}| = p_x(g(y)) | g\prime (y) |$ .

Qu'est-ce que le facteur jacobien et que signifie exactement tout (peut-être qualitativement)? Bishop dit qu'une conséquence de cette propriété est que le concept du maximum d'une densité de probabilité dépend du choix de la variable. Qu'est-ce que ça veut dire?

Pour moi, cela vient un peu à l'improviste (étant donné que c'est dans le chapitre d'introduction). J'apprécierais quelques conseils, merci!

machine-learning probability ste
la source

"Une explication intuitive de la densité d'une variable transformée" pourrait être utile. Concernant "Jacobian", veuillez rechercher sur notre site .

whuber

Pour une excellente description du facteur jacobien, voir le didacticiel vidéo de Khan Academy sur le déterminant jacobien. khanacademy.org/math/multivariable-calculus/…

JStrahl

Réponses:

Je vous suggère de lire la solution de la question 1.4 qui fournit une bonne intuition.

En résumé, si vous avez une fonction arbitraire et deux variables et qui sont liées l'une à l'autre par la fonction , alors vous pouvez trouver le maximum de la fonction soit en analysant directement : ou la fonction transformée : . Sans surprise, et seront liés à chacun comme (ici j'ai supposé que . $f(x)$ $x$ $y$ $x = g(y)$ $f(x)$ $\hat{x} = argmax_x(f(x))$ $f(g(y))$ $\hat{y} = argmax_y(f(g(y))$ $\hat{x}$ $\hat{y}$ $\hat{x} = g(\hat{y})$ $\forall{y}: g^\prime(y)\neq0)$

Ce n'est pas le cas pour les distributions de probabilité. Si vous avez une distribution de probabilité et deux variables aléatoires qui sont liées l'une à l'autre par . Il n'y a alors pas de relation directe entre et . Cela se produit en raison du facteur jacobien, un facteur qui montre comment le volume est relativement modifié par une fonction telle que . $p_x(x)$ $x=g(y)$ $\hat{x} = argmax_x(p_x(x))$ $\hat{y}=argmax_y(p_y(y))$ $g(.)$

MajidL
la source