Dans Bishop's Pattern Recognition and Machine Learning, j'ai lu ce qui suit, juste après l' introduction de la densité de probabilité :
Sous un changement de variable non linéaire, une densité de probabilité se transforme différemment d'une fonction simple, en raison du facteur jacobien. Par exemple, si nous considérons un changement de variables , alors une fonction devient . Considérons maintenant une densité de probabilité qui correspond à une densité par rapport à la nouvelle variable , où les suf fi ces dénotent le fait que et sont des densités différentes. Les observations se situant dans la plage seront, pour les petites valeurs de , transformées dans la plage ) où , et donc .
Qu'est-ce que le facteur jacobien et que signifie exactement tout (peut-être qualitativement)? Bishop dit qu'une conséquence de cette propriété est que le concept du maximum d'une densité de probabilité dépend du choix de la variable. Qu'est-ce que ça veut dire?
Pour moi, cela vient un peu à l'improviste (étant donné que c'est dans le chapitre d'introduction). J'apprécierais quelques conseils, merci!
Réponses:
Je vous suggère de lire la solution de la question 1.4 qui fournit une bonne intuition.
En résumé, si vous avez une fonction arbitraire et deux variables et qui sont liées l'une à l'autre par la fonction , alors vous pouvez trouver le maximum de la fonction soit en analysant directement : ou la fonction transformée : . Sans surprise, et seront liés à chacun comme (ici j'ai supposé que .f(x) x y x=g(y) f(x) x^=argmaxx(f(x)) f(g(y)) y^=argmaxy(f(g(y)) x^ y^ x^=g(y^) ∀y:g′(y)≠0)
Ce n'est pas le cas pour les distributions de probabilité. Si vous avez une distribution de probabilité et deux variables aléatoires qui sont liées l'une à l'autre par . Il n'y a alors pas de relation directe entre et . Cela se produit en raison du facteur jacobien, un facteur qui montre comment le volume est relativement modifié par une fonction telle que .px(x) x=g(y) x^=argmaxx(px(x)) y^=argmaxy(py(y)) g(.)
la source