Pourquoi le classificateur bayésien naïf est-il optimal pour une perte de 0-1?

13

Le classificateur Naive Bayes est le classificateur qui attribue les éléments à une classe fonction de la maximisation du postérieur pour l'appartenance à la classe, et suppose que les caractéristiques des éléments sont indépendantes.C P ( C | x )xCP(C|x)

La perte 0-1 est la perte qui attribue à tout classement manquant une perte de "1" et une perte de "0" à tout classement correct.

J'ai souvent lu (1) que le classificateur "Naive Bayes", est optimal pour la perte 0-1. Pourquoi est-ce vrai?

(1) Une source exemplaire: classificateur de Bayes et erreur de Bayes


la source
2
Pouvez-vous fournir une référence pour votre déclaration, " J'ai souvent lu que le classificateur" Naive Bayes ", est optimal pour la perte 0-1 "? Comme, où avez-vous lu ce type de déclaration dans le passé
Jon
1
édité, ajouté une source

Réponses:

16

En fait, c'est assez simple: le classificateur de Bayes choisit la classe qui a la plus grande probabilité d'occurrence a posteriori (appelée estimation maximale a posteriori ). La fonction de perte 0-1 pénalise les erreurs de classification, c'est-à-dire qu'elle affecte la plus petite perte à la solution qui a le plus grand nombre de classifications correctes. Donc, dans les deux cas, nous parlons du mode d' estimation . Rappelez-vous que le mode est la valeur la plus courante dans l'ensemble de données, ou la valeur la plus probable , donc à la fois maximiser la probabilité postérieure et minimiser la perte 0-1 conduit à estimer le mode.

Si vous avez besoin d'une preuve formelle, celle-ci est donnée dans le document Introduction à la théorie de la décision bayésienne d'Angela J. Yu:

La fonction de perte binaire 0-1 a la forme suivante:

lx(s^,s)=1δs^s={1ifs^s0otherwise

où est la fonction Kronecker Delta. (...) la perte attendue est:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

Cela est vrai pour l'estimation maximale a posteriori en général. Donc, si vous connaissez la distribution postérieure, alors en supposant une perte de 0-1, la règle de classification la plus optimale est de prendre le mode de la distribution postérieure, nous l'appelons un classificateur bayésien optimal . Dans la vie réelle, nous ne connaissons généralement pas la distribution postérieure, mais nous l'estimons plutôt. Le classificateur Naive Bayes se rapproche du classificateur optimal en examinant la distribution empirique et en supposant l'indépendance des prédicteurs. Le classificateur Bayes naïf n'est donc pas lui-même optimal, mais il se rapproche de la solution optimale. Dans votre question, vous semblez confondre ces deux choses.

Tim
la source
Je pense que je comprends: Donc, la preuve formelle serait quelque chose dans le sens de la perte (action_1) = 1-P (action_2 | données) <--- nous voulons minimiser cela. Minimiser cela équivaut à nouveau à maximiser l'avant de la classe correcte (c.-à-d. Maximiser P (action_2 | données). Ce qui m'embrouille cependant, c'est pourquoi tous les classificateurs ne seraient pas optimaux à cet égard - car cela semble être l'exigence la plus fondamentale pour l'affectation d'un échantillon de données à une classe. Donc, si nous choisissons toujours d'affecter notre échantillon de données à la classe avec une valeur postérieure supérieure, ne remplissons-nous pas automatiquement cette optimalité?
@TestGuest vérifier ma modification pour une preuve formelle.
Tim
C'est le formalisme le plus compliqué que j'ai vu pour une telle preuve :)) merci cependant, j'espère que cela aide aussi les autres.