Comment gérer un facteur zéro dans le calcul du Naive Bayes Classifier?

Si j'ai un ensemble de données d'entraînement et j'entraîne un classificateur Naive Bayes dessus et j'ai une valeur d'attribut qui a une probabilité nulle. Comment gérer cela si je souhaite par la suite prédire la classification des nouvelles données? Le problème est que s'il y a un zéro dans le calcul, le produit entier devient nul, peu importe le nombre d'autres valeurs que j'ai obtenues qui trouveraient peut-être une autre solution.

Exemple:

$P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004$

$P(x|spam=no) = P(TimeZone = US | spam=no) \cdot P(GeoLocation = EU | spam = no) \cdot ~ ... ~ = 0$

Le produit entier devient parce que dans les données d'entraînement, l'attribut TimeZone US est toujours Oui dans notre petit ensemble de données d'entraînement. Comment puis-je gérer cela? Dois-je utiliser un plus grand ensemble de données d'entraînement ou existe-t-il une autre possibilité de résoudre ce problème? $0$

classification naive-bayes-classifier parfumé
la source

Si vous obtenez une valeur d'attribut discrète, sa probabilité ne peut pas être nulle, par définition.

Paul

pourquoi nous ajoutons un problème de fréquence 1 sur 0 quelle est la logique derrière cela pourquoi ne pas ajouter un autre nombre.

Aftab Hussaiin

Réponses:

Une approche pour surmonter ce «problème de fréquence nulle» dans un cadre bayésien consiste à en ajouter un au nombre pour chaque combinaison valeur-attribut lorsqu'une valeur d'attribut ne se produit pas avec chaque valeur de classe. Par exemple, supposons que vos données d'entraînement ressemblent à ceci:

\begin{array}{ccc} Spam = y e s & Spam = n o \\ Fuseau horaire = U S & dix & 5 \\ Fuseau horaire = E U & 0 & 0 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 10 & 5 \\ \hline \text{TimeZone} = EU & 0 & 0 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{10}{10} = 1$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{0}{10} = 0$

Ensuite, vous devez ajouter une à chaque valeur de ce tableau lorsque vous l'utilisez pour calculer les probabilités:

\begin{array}{ccc} Spam = y e s & Spam = n o \\ Fuseau horaire = U S & 11 & 6 \\ Fuseau horaire = E U & 1 & 1 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 11 & 6 \\ \hline \text{TimeZone} = EU & 1 & 1 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{11}{12}$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{1}{12}$

chronogramme
la source

En effet. Notez que vous pouvez parfois ajouter des valeurs autres qu'une. Pour plus de détails, voir en.wikipedia.org/wiki/Additive_smoothing

DaL