Si j'ai un ensemble de données d'entraînement et j'entraîne un classificateur Naive Bayes dessus et j'ai une valeur d'attribut qui a une probabilité nulle. Comment gérer cela si je souhaite par la suite prédire la classification des nouvelles données? Le problème est que s'il y a un zéro dans le calcul, le produit entier devient nul, peu importe le nombre d'autres valeurs que j'ai obtenues qui trouveraient peut-être une autre solution.
Exemple:
Le produit entier devient parce que dans les données d'entraînement, l'attribut TimeZone US est toujours Oui dans notre petit ensemble de données d'entraînement. Comment puis-je gérer cela? Dois-je utiliser un plus grand ensemble de données d'entraînement ou existe-t-il une autre possibilité de résoudre ce problème?
Réponses:
Une approche pour surmonter ce «problème de fréquence nulle» dans un cadre bayésien consiste à en ajouter un au nombre pour chaque combinaison valeur-attribut lorsqu'une valeur d'attribut ne se produit pas avec chaque valeur de classe. Par exemple, supposons que vos données d'entraînement ressemblent à ceci:
Ensuite, vous devez ajouter une à chaque valeur de ce tableau lorsque vous l'utilisez pour calculer les probabilités:
la source