Ratio de probabilités vs ratio de PDF

J'utilise Bayes pour résoudre un problème de clustering. Après avoir fait quelques calculs, je me retrouve avec la nécessité d'obtenir le rapport de deux probabilités:

P (A) / P (B)

$P(A)/P(B)$

pouvoir obtenir . Ces probabilités sont obtenues par intégration de deux KDE multivariés 2D différents comme expliqué dans cette réponse : $P(H|D)$

P (A) = \iint_{x, y : \hat{f} (x, y) < \hat{f} (r_{a}, s_{a})} \hat{f} (x, y) d x d y

$P(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy$

P (B) = \iint_{x, y : \hat{g} (x, y) < \hat{g} (r_{b}, s_{b})} \hat{g} (x, y) d x d y

$P(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy$

où $\hat{f}(x, y)$ et $\hat{g}(x, y)$ sont les KDE et l'intégration se fait pour tous les points en dessous des seuils $\hat{f}(r_a, s_a)$ et $\hat{g}(r_b, s_b)$ . Les deux KDE utilisent un noyau gaussien . Une image représentative d'un KDE similaire à ceux avec lesquels je travaille peut être vue ici: Intégration de l'estimateur de densité de noyau en 2D .

Je calcule les KDE au moyen d'une pythonfonction stats.gaussian_kde , donc j'assume la forme générale suivante pour cela:

K D E (x, y) = \frac{1}{n} \sum_{i = 1}^{n} - \frac{1}{2 h^{2}} e^{- \frac{(x - x_{i})^{2} + (y - y_{i})^{2}}{2 h^{2}}}

$KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}}$

où nest la longueur de mon tableau de points et hla bande passante utilisée.

Les intégrales ci-dessus sont calculées en appliquant un processus de Monte Carlo qui est assez coûteux en calcul. J'ai lu quelque part (oublié où, désolé) que dans des cas comme celui-ci, il est possible de remplacer le rapport des probabilités par le rapport des PDF (KDE) évalués aux points de seuil pour obtenir des résultats tout aussi valables. Cela m'intéresse parce que le calcul du rapport KDE est des ordres de grandeur plus rapide que le calcul du rapport des intégrales avec MC.

La question est donc réduite à la validité de cette expression:

\frac{P (A)}{P (B)} = \frac{\hat{f} (r_{a}, s_{a})}{\hat{g} (r_{b}, s_{b})}

$\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)}$

Dans quelles circonstances, le cas échéant, puis-je dire que cette relation est vraie?

[faute de frappe fixe (EDIT)]

Ajouter :

Voici essentiellement la même question mais faite sous une forme plus mathématique .

probability bayesian maximum-likelihood kernel-smoothing Gabriel
la source

Notez que l'existence de appropriés est assurée par le théorème de la valeur moyenne pour les intégrales.

r_{a, b}, s_{a, b}

$r_{a,b}, s_{a,b}$

Dave

Je pense que le ratio Mills peut être pertinent.

whuber

@whuber ce ratio nécessite apparemment que je connaisse la valeur de P(X)ce que j'essaie d'éviter de calculer. Pourriez-vous développer un peu la pertinence de ce paramètre?

Gabriel

Réponses:

Le KDE est un mélange de distributions normales. Regardons un seul d'entre eux.

Les définitions de et montrent que leurs valeurs sont invariantes sous les traductions et les redimensionnements dans le plan, il suffit donc de considérer la distribution normale standard avec PDF . L'inégalité $P(A)$ $P(B)$ $f$

f (x, y) \leq f (r, s)

$f(x,y) \le f(r,s)$

est équivalent à

x^{2} + y^{2} \geq r^{2} + s^{2} .

$x^2 + y^2 \ge r^2 + s^2.$

L'introduction des coordonnées polaires permet de réécrire l'intégrale $\rho, \theta$

P (r, s) = \frac{1}{2 π} \int_{0}^{2 π} \int_{\sqrt{r^{2} + s^{2}}}^{\infty} ρ \exp (- ρ^{2} / 2) d ρ d θ = \exp (- (r^{2} + s^{2}) / 2) = 2 π f (r, s) .

$P(r,s) = \frac{1}{2\pi}\int_0^{2\pi}\int_\sqrt{r^2+s^2}^\infty \rho \exp(-\rho^2/2) d\rho d\theta= \exp(-(r^2+s^2)/2) = 2\pi f(r,s).$

Considérez maintenant le mélange. Parce qu'il est linéaire,

\begin{aligned} P (r, s) & = \frac{1}{n} \sum_{i} 2 π f ((r - x_{i}) / h, (s - y_{i}) / h) \\ = 2 π h^{2} (\frac{1}{n} \sum_{i} \frac{1}{h^{2}} f ((r - x_{i}) / h, (s - y_{i}) / h)) \\ = 2 π h^{2} K D E (r, s) . \end{aligned}

$\eqalign{ P(r,s) &= \frac{1}{n}\sum_i 2\pi f((r-x_i)/h, (s-y_i)/h) \\ &= 2\pi h^2\left(\frac{1}{n}\sum_i \frac{1}{h^2} f((r-x_i)/h, (s-y_i)/h)\right) \\ &=2\pi h^2 KDE(r,s). }$

En effet, et sont proportionnels. La constante de proportionnalité est . $f$ $P$ $2\pi h^2$

Le fait qu'une telle relation de proportionnalité entre et soit spéciale $P$ $f$ peut être apprécié en envisageant un simple contre-exemple. Soit une distribution uniforme sur un ensemble mesurable de surface unitaire et une distribution uniforme sur un ensemble mesurable qui est disjoint de et a l'aire . Ensuite, le mélange avec PDF a une valeur constante sur , sur , et est nul ailleurs. Il y a trois cas à considérer: $f_1$ $A_1$ $f_2$ $A_2$ $A_1$ $\mu\gt 1$ $f=f_1/2 + f_2/2$ $1/2$ $A_1$ $1/(2\mu)$ $A_2$

$(r,s)\in A_1$ . Ici, atteint son maximum, d'où . Le rapport . $f(r,s)=1/2$ $P(r,s)=1$ $f(r,s)/P(r,s) = 1/2$
$(r,s)\in A_2$ . Ici, est strictement inférieur à mais supérieur à . Ainsi, la région d'intégration est le complément de et l'intégrale résultante doit être égale à . Le rapport . $f(r,s)$ $1/2$ $0$ $A_1$ $1/2$ $f(r,s)/P(r,s) = (1/(2\mu))/(1/2) = 1/\mu$
Ailleurs, est nul et l'intégrale est nulle. $f$ $P$

Évidemment, le rapport (où il est défini) n'est pas constant et varie entre et . Bien que cette distribution ne soit pas continue, elle peut être réalisée en y ajoutant une distribution normale . En rendant les deux valeurs propres de petites, cela changera très peu la distribution et produira qualitativement les mêmes résultats - seulement maintenant les valeurs du rapport incluront tous les nombres dans l'intervalle . $1$ $1/\mu \ne 1$ $(0,\Sigma)$ $\Sigma$ $f/P$ $[1,1/\mu]$

Ce résultat ne se généralise pas non plus aux autres dimensions. Essentiellement, le même calcul qui a commencé cette réponse montre que est une fonction Gamma incomplète et que ce n'est clairement pas la même chose que . Le fait que deux dimensions soient spéciales peut être apprécié en notant que l'intégration dans concerne essentiellement les distances et lorsque celles-ci sont normalement distribuées, la fonction de distance a une - qui est la distribution exponentielle. La fonction exponentielle est unique en ce qu'elle est proportionnelle à sa propre dérivée - d'où l'intégrande et l'intégrale doivent être proportionnelles. $P$ $f$ $P$ $\chi^2(2)$ $f$ $P$

whuber
la source

Ceci est une réponse incroyablement whuber, merci beaucoup. Il me faudra un certain temps pour traiter entièrement tout ce que vous avez écrit ici, mais je vous fais entièrement confiance dans les calculs, ce qui signifie que j'ai marqué la question comme résolue. À votre santé.

Gabriel