Si deux classes et ont une distribution normale avec des paramètres connus ( , comme moyennes et , sont leurs covariances) comment pouvons-nous calculer théoriquement l'erreur du classifieur Bayes pour elles?
Supposons également que les variables se trouvent dans un espace à N dimensions.
Remarque: Une copie de cette question est également disponible sur https://math.stackexchange.com/q/11891/4051 et est toujours sans réponse. Si l'une de ces questions obtient une réponse, l'autre sera supprimée.
Réponses:
Il n'y a pas de formulaire fermé, mais vous pouvez le faire numériquement.
À titre d'exemple concret, considérons deux Gaussiens avec les paramètres suivants
La limite optimale du classificateur de Bayes correspondra au point où deux densités sont égales
Étant donné que votre classificateur choisira la classe la plus probable à chaque point, vous devez intégrer la densité qui n'est pas la plus élevée pour chaque point. Pour le problème ci-dessus, cela correspond aux volumes des régions suivantes
Vous pouvez intégrer deux pièces séparément en utilisant un package d'intégration numérique. Pour le problème ci-dessus, j'utilise le
0.253579
code Mathematica suivantla source
Il semble que vous puissiez vous y prendre de deux manières, selon les hypothèses de modèle que vous êtes heureux de faire.
Approche générative
En supposant un modèle génératif pour les données, vous devez également connaître les probabilités antérieures de chaque classe pour une déclaration analytique de l'erreur de classification. Recherchez l'analyse discriminante pour obtenir la limite de décision optimale sous forme fermée, puis calculez les zones du mauvais côté pour chaque classe pour obtenir les taux d'erreur.
Je suppose que c'est l'approche prévue par votre invocation du classificateur Bayes, qui est défini que lorsque tout ce qui concerne le processus de génération de données est spécifiée. Étant donné que cela est rarement possible, il vaut toujours aussi la peine
Approche de la discrimination
Si vous ne voulez pas ou ne pouvez pas spécifier les probabilités de classe antérieures, vous pouvez profiter du fait que la fonction discriminante peut dans de nombreuses circonstances (en gros, les distributions conditionnelles exponentielles de classe familiale) être modélisée directement par un modèle de régression logistique. Le calcul du taux d'erreur est alors celui du modèle de régression logistique pertinent.
Pour une comparaison des approches et une discussion des taux d'erreur, Jordan 1995 et Jordan 2001 et les références peuvent être d'intérêt.
la source
Ici vous pouvez trouver plusieurs indices pour votre question, peut-être n'y a-t-il pas la réponse complète mais certainement des parties très précieuses. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766788/
la source
Dans la classification avec des classes équilibrées, le taux d'erreur de Bayes (BER) est exactement égal à , où est la distance de variation totale entre les distributions conditionnelles + ve et -ve des caractéristiques. Voir le théorème 1 de cet article .(1−TV)/2 TV
Pour terminer, il n'est pas difficile de trouver de bonnes références calculant la TV entre des distributions gaussiennes multivariées.
la source