J'utilise Bayes pour résoudre un problème de clustering. Après avoir fait quelques calculs, je me retrouve avec la nécessité d'obtenir le rapport de deux probabilités:
pouvoir obtenir . Ces probabilités sont obtenues par intégration de deux KDE multivariés 2D différents comme expliqué dans cette réponse :
où et sont les KDE et l'intégration se fait pour tous les points en dessous des seuils et . Les deux KDE utilisent un noyau gaussien . Une image représentative d'un KDE similaire à ceux avec lesquels je travaille peut être vue ici: Intégration de l'estimateur de densité de noyau en 2D .
Je calcule les KDE au moyen d'une python
fonction stats.gaussian_kde , donc j'assume la forme générale suivante pour cela:
où n
est la longueur de mon tableau de points et h
la bande passante utilisée.
Les intégrales ci-dessus sont calculées en appliquant un processus de Monte Carlo qui est assez coûteux en calcul. J'ai lu quelque part (oublié où, désolé) que dans des cas comme celui-ci, il est possible de remplacer le rapport des probabilités par le rapport des PDF (KDE) évalués aux points de seuil pour obtenir des résultats tout aussi valables. Cela m'intéresse parce que le calcul du rapport KDE est des ordres de grandeur plus rapide que le calcul du rapport des intégrales avec MC.
La question est donc réduite à la validité de cette expression:
Dans quelles circonstances, le cas échéant, puis-je dire que cette relation est vraie?
[faute de frappe fixe (EDIT)]
Ajouter :
Voici essentiellement la même question mais faite sous une forme plus mathématique .
P(X)
ce que j'essaie d'éviter de calculer. Pourriez-vous développer un peu la pertinence de ce paramètre?Réponses:
Le KDE est un mélange de distributions normales. Regardons un seul d'entre eux.
Les définitions de et montrent que leurs valeurs sont invariantes sous les traductions et les redimensionnements dans le plan, il suffit donc de considérer la distribution normale standard avec PDF . L'inégalitéP(A) P(B) f
est équivalent à
L'introduction des coordonnées polaires permet de réécrire l'intégraleρ,θ
Considérez maintenant le mélange. Parce qu'il est linéaire,
En effet, et sont proportionnels. La constante de proportionnalité est .f P 2πh2
Le fait qu'une telle relation de proportionnalité entre et soit spécialeP f peut être apprécié en envisageant un simple contre-exemple. Soit une distribution uniforme sur un ensemble mesurable de surface unitaire et une distribution uniforme sur un ensemble mesurable qui est disjoint de et a l'aire . Ensuite, le mélange avec PDF a une valeur constante sur , sur , et est nul ailleurs. Il y a trois cas à considérer:f1 A1 f2 A2 A1 μ>1 f=f1/2+f2/2 1/2 A1 1/(2μ) A2
Ailleurs, est nul et l'intégrale est nulle.f P
Évidemment, le rapport (où il est défini) n'est pas constant et varie entre et . Bien que cette distribution ne soit pas continue, elle peut être réalisée en y ajoutant une distribution normale . En rendant les deux valeurs propres de petites, cela changera très peu la distribution et produira qualitativement les mêmes résultats - seulement maintenant les valeurs du rapport incluront tous les nombres dans l'intervalle .1 1/μ≠1 (0,Σ) Σ f/P [1,1/μ]
Ce résultat ne se généralise pas non plus aux autres dimensions. Essentiellement, le même calcul qui a commencé cette réponse montre que est une fonction Gamma incomplète et que ce n'est clairement pas la même chose que . Le fait que deux dimensions soient spéciales peut être apprécié en notant que l'intégration dans concerne essentiellement les distances et lorsque celles-ci sont normalement distribuées, la fonction de distance a une - qui est la distribution exponentielle. La fonction exponentielle est unique en ce qu'elle est proportionnelle à sa propre dérivée - d'où l'intégrande et l'intégrale doivent être proportionnelles.P f P χ2(2) f P
la source