Pourquoi Bayes Classifier est-il le classificateur idéal?

11

Il est considéré comme le cas idéal dans lequel la structure de probabilité sous-jacente aux catégories est parfaitement connue.

Pourquoi est-ce qu'avec le classificateur Bayes, nous obtenons les meilleures performances possibles?

Quelle est la preuve / explication formelle de cela? Comme nous utilisons toujours le classificateur Bayes comme référence pour comparer les performances de tous les autres classificateurs.

Vatsal
la source

Réponses:

9

Pourquoi est-ce qu'avec le classificateur Bayes, nous obtenons les meilleures performances possibles? Quelle est la preuve / explication formelle de cela?

Habituellement, un ensemble de données est considéré comme composé de échantillons iid d'une distribution qui génère vos données. Ensuite, vous construisez un modèle prédictif à partir des données données: étant donné un échantillon , vous prédisez la classe , tandis que la classe réelle de l'échantillon est .Dnxixif^(xi)f(xi)

Cependant, en théorie, vous pourriez décider de ne pas choisir un modèle particulier , mais plutôt considérer tous les modèles possibles à la fois et les combiner en quelque sorte en un seul grand modèle .f^chosenf^F^

Bien sûr, compte tenu des données, de nombreux modèles plus petits peuvent être tout à fait improbables ou inappropriés (par exemple, des modèles qui ne prédisent qu'une seule valeur de la cible, même s'il existe plusieurs valeurs de la cible dans votre ensemble de données ).D

Dans tous les cas, vous souhaitez prédire la valeur cible de nouveaux échantillons, qui sont tirés de la même distribution que s. Une bonne mesure des performances de votre modèle serait c'est-à-dire la probabilité que vous prédisiez la vraie valeur cible pour un échantillonné au hasard .xie

e(model)=P[f(X)=model(X)],
X

En utilisant la formule de Bayes, vous pouvez calculer quelle est la probabilité qu'un nouvel échantillon ait la valeur cible , étant donné les données :xvD

P(vD)=f^P(vf^)P(f^D).
Il faut souligner que

  • généralement vaut ou , car est une fonction déterministe de ,P(vf^)01f^x
  • pas habituellement, mais presque tout le temps, il est impossible d'estimer (sauf pour les cas triviaux susmentionnés),P(f^D)
  • pas habituellement, mais presque tout le temps, le nombre de modèles possibles est trop grand pour que la somme supérieure soit évaluée.f^

Par conséquent, il est très difficile d'obtenir / d'estimer dans la plupart des cas.P(vD)

Passons maintenant au classificateur Optimal Bayes. Pour un donné , il prédit la valeur Comme il s'agit de la valeur la plus probable parmi toutes les valeurs cibles possibles , le classificateur Optimal Bayes maximise la mesure de performance .x

v^=argmaxvf^P(vf^)P(f^D).
ve(f^)

Comme nous utilisons toujours le classificateur Bayes comme référence pour comparer les performances de tous les autres classificateurs.

Vous utilisez probablement la version naïve du classificateur Bayes. Il est facile à mettre en œuvre, fonctionne assez bien la plupart du temps, mais ne calcule qu'une estimation naïve de .P(vD)

Antoine
la source
Le classificateur Bayes (pas les bayes naïfs) est-il le même que le classificateur optimal bayes ???? et la probabilité a priori? P(v|f)
RuiQi
@RuiQi Je ne pense pas qu'il y ait une telle chose que le classificateur de Bayes. Je connais le classificateur naïf de Bayes et le classificateur optimal de Bayes.
Antoine
@RuiQi est la probabilité qu'un échantillon à classer tombe dans la classe si nous utilisons le modèle prédictif . Je suppose que vous pouvez l'appeler probabilité antérieure. P(vf^)vf^
Antoine
0

Les performances en termes de taux de réussite d'un classifieur sont à la probabilité qu'une vraie classe soit égale à la classe prédite .CTCP

Vous pouvez exprimer cette probabilité comme l'intégrale sur toutes les situations possibles du vecteur de caractéristiques (ou la somme lorsque est discret) et la probabilité conditionnelle de classification correcte pour cesXXx

P(CT=CP)=all possible Xf(x)P(CT=CP|x)dx

Où est la densité de probabilité du vecteur de caractéristique .f(x)X

Si, pour un ensemble possible de fonctionnalités , un classificateur ne sélectionne pas la classe la plus probable pour cet ensemble de fonctionnalités, alors il peut être amélioré.x

Le classificateur de Bayes sélectionne toujours la classe la plus probable pour chaque ensemble de caractéristiques (le terme est maximum), ne peut donc pas être amélioré, du moins pas sur la base des caractéristiques .xP(CT=CP|x)x

Sextus Empiricus
la source