Différence entre les Bayes naïfs et les Bayes naïfs multinomiaux

29

J'ai déjà traité du classificateur Naive Bayes . J'ai lu récemment sur Multinomial Naive Bayes .

Également probabilité postérieure = (probabilité * antérieure) / (preuve) .

La seule différence principale (lors de la programmation de ces classificateurs) que j'ai trouvée entre Naive Bayes et Multinomial Naive Bayes est que

Multinomial Naive Bayes calcule la probabilité d'être compté d'un mot / jeton (variable aléatoire) et Naive Bayes calcule la probabilité d'être le suivant:

entrez la description de l'image ici

Corrige moi si je me trompe!

garak
la source
1
Vous trouverez beaucoup d'informations dans le pdf suivant: cs229.stanford.edu/notes/cs229-notes2.pdf
B_Miner
Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze. " Introduction to Retrieval Information. " 2009, le chapitre 13 sur la classification des textes et Naive Bayes est bon aussi.
Franck Dernoncourt

Réponses:

43

Le terme général Naive Bayes fait référence aux fortes hypothèses d'indépendance du modèle, plutôt qu'à la distribution particulière de chaque caractéristique. Un modèle Naive Bayes suppose que chacune des fonctionnalités qu'il utilise est conditionnellement indépendante les unes des autres compte tenu d'une certaine classe. Plus formellement, si je veux calculer la probabilité d'observer les entités à , étant donné une classe c, sous l'hypothèse de Naive Bayes, les conditions suivantes sont réunies:f nf1fn

p(f1,...,fn|c)=i=1np(fi|c)

Cela signifie que lorsque je veux utiliser un modèle Naive Bayes pour classer un nouvel exemple, la probabilité postérieure est beaucoup plus simple à utiliser:

p(c|f1,...,fn)p(c)p(f1|c)...p(fn|c)

Bien sûr, ces hypothèses d'indépendance sont rarement vraies, ce qui peut expliquer pourquoi certains ont appelé le modèle "Idiot Bayes", mais dans la pratique, les modèles Naive Bayes ont étonnamment bien fonctionné, même sur des tâches complexes où il est clair que la forte les hypothèses d'indépendance sont fausses.

Jusqu'à présent, nous n'avons rien dit sur la distribution de chaque fonctionnalité. En d'autres termes, nous avons laissé indéfini. Le terme Bayes naïfs multinomiaux nous fait simplement savoir que chaque est une distribution multinomiale, plutôt qu'une autre distribution. Cela fonctionne bien pour les données qui peuvent facilement être transformées en nombres, tels que les nombres de mots dans le texte.p ( f i | c )p(fi|c)p(fi|c)

La distribution que vous utilisiez avec votre classificateur Naive Bayes est un pdf guassien, donc je suppose que vous pourriez l'appeler un classificateur guassien Naive Bayes.

En résumé, le classificateur Naive Bayes est un terme général qui fait référence à l'indépendance conditionnelle de chacune des fonctionnalités du modèle, tandis que le classificateur multinomial Naive Bayes est une instance spécifique d'un classificateur Naive Bayes qui utilise une distribution multinomiale pour chacune des fonctionnalités.

Les références:

Stuart J. Russell et Peter Norvig. 2003. Intelligence artificielle: une approche moderne (2 éd.). Éducation Pearson. Voir p. 499 pour référence à "idiot Bayes" ainsi que la définition générale du modèle Naive Bayes et ses hypothèses d'indépendance

jlund3
la source
Les liens sont rompus
ssoler
@ jlund3, Merci pour la belle explication. Comment incorporons-nous les informations de la distribution dans notre classificateur? Je veux dire comment la fomule p (c | f1, ..., fn) ∝p (c) p (f1 | c) ... p (fn | c) change selon qu'elle est une distribution guassienne vs multimodale
David
Merci pour la brève explication mais je recommande le livre (Stuart J. Russell et Peter Norvig. 2003. Artificial Intelligence: A Modern Approach (2 ed.)) Référencé ci-dessus pour plus de connaissances sur le NB et les techniques d'intelligence artificielle aussi ..
Mirani
les comptes de distribution multinomiale ne sont pas indépendants. voir ma question ici: datascience.stackexchange.com/questions/32016/…
Hanan Shteingart
10

En général, pour former les Naive Bayes aux données à n dimensions et aux classes k, vous devez estimer pour chaque , . Vous pouvez supposer n'importe quelle distribution de probabilité pour n'importe quelle paire (bien qu'il soit préférable de ne pas supposer une distribution discrète pour et continue pour ). Vous pouvez avoir une distribution gaussienne sur une variable, Poisson sur une autre et discrète sur une autre variable.1 i n 1 j k ( i , j ) P ( x i | c j 1 ) P ( x i | c j 2 )P(xi|cj)1in1jk(i,j)P(xi|cj1)P(xi|cj2)

Multinomial Naive Bayes suppose simplement une distribution multinomiale pour toutes les paires, ce qui semble être une hypothèse raisonnable dans certains cas, c'est-à-dire pour le nombre de mots dans les documents.

sjm.majewski
la source