À ma connaissance (très basique), Naive Bayes estime les probabilités en fonction des fréquences de classe de chaque caractéristique des données d'entraînement. Mais comment calcule-t-il la fréquence des variables continues? Et lors de la prédiction, comment classe-t-elle une nouvelle observation qui peut ne pas avoir les mêmes valeurs que n'importe quelle observation dans l'ensemble d'entraînement? Utilise-t-il une sorte de mesure de distance ou trouve-t-il le 1NN?
14
Réponses:
Il existe de nombreuses façons d'effectuer une classification Bayes naïve (NBC). Une technique courante dans NBC consiste à recoder les valeurs d'entité (variables) en quartiles, de sorte que les valeurs inférieures au 25e centile se voient attribuer un 1, 25e au 50e a 2, 50e au 75e a 3 et supérieures au 75e centile a 4. Ainsi, un seul objet déposera un compte dans le bac Q1, Q2, Q3 ou Q4. Les calculs sont simplement effectués sur ces bacs catégoriques. Le nombre de casiers (probabilités) est ensuite basé sur le nombre d'échantillons dont les valeurs variables se trouvent dans un casier donné. Par exemple, si un ensemble d'objets a des valeurs très élevées pour la fonction X1, cela se traduira par un grand nombre de bin dans le casier pour Q4 de X1. D'un autre côté, si un autre ensemble d'objets a des valeurs faibles pour la caractéristique X1, alors ces objets déposeront beaucoup de décomptes dans le bac pour Q1 de la caractéristique X1.
Ce n'est en fait pas un calcul vraiment intelligent, c'est plutôt un moyen de discrétiser des valeurs continues à discrètes, et d'exploiter par la suite. L'index de Gini et le gain d'informations peuvent être facilement calculés après discrétisation pour déterminer quelles caractéristiques sont les plus informatives, c'est-à-dire max (Gini).
Sachez cependant qu'il existe de nombreuses façons d'effectuer NBC et que celles-ci sont très différentes les unes des autres. Il vous suffit donc d'indiquer lequel vous avez mis en œuvre dans un discours ou un document.
la source
Le cœur de Naive Bayes est l'hypothèse conditionnelle héroïque:
Il existe différentes façons d'estimer les paramètres, mais en général, on pourrait:
la source