Lissage dans le modèle Naive Bayes

Un prédicteur Naive Bayes fait ses prédictions en utilisant cette formule:

P (Oui = y | X = X) = α P (Oui = y) \prod_{je} P (X_{je} = X_{je} | Oui = y)

$P(Y=y|X=x) = \alpha P(Y=y)\prod_i P(X_i=x_i|Y=y)$

où est un facteur de normalisation. Cela nécessite d'estimer les paramètres partir des données. Si nous faisons cela avec lissage, alors nous obtenons l'estimation $\alpha$ $P(X_i=x_i|Y=y)$ $k$

\hat{P} (X_{je} = X_{je} | Oui = y) = \frac{# {X_{je} = X_{je}, Oui = y} + k}{# {Oui = y} + n_{je} k}

$\hat{P}(X_i=x_i|Y=y) = \frac{\#\{X_i=x_i,Y=y\} + k}{\#\{Y=y\}+n_ik}$

où il y a valeurs possibles pour . Je suis d'accord avec ça. Cependant, pour le prieur, nous avons $n_i$ $X_i$

\hat{P} (Oui = y) = \frac{# {Oui = y}}{N}

$\hat{P}(Y=y) = \frac{\#\{Y=y\}}{N}$

où il y a exemples dans l'ensemble de données. Pourquoi ne lissons-nous pas aussi le prieur? Ou plutôt, lissons- nous le prieur? Si oui, quel paramètre de lissage choisissons-nous? Il semble un peu idiot de choisir également , car nous faisons un calcul différent. Y a-t-il un consensus? Ou cela n'a-t-il pas trop d'importance? $N$ $k$

machine-learning probability-theory statistics Chris Taylor
la source

La raison typique du lissage en premier lieu est de gérer les cas où . Si cela n'était pas fait, nous obtiendrions toujours chaque fois que ce serait le cas. $\#\{X_i = x_i | Y = y\} = 0$ $P(Y=y|X=x) = 0$

Cela se produit lorsque, par exemple, lors de la classification de documents texte, vous rencontrez un mot qui ne figurait pas dans vos données de formation ou qui n'apparaissait tout simplement pas dans une classe particulière.

En revanche, dans le cas de la probabilité a priori de classe, , cette situation ne devrait pas se produire. Si c'était le cas, cela signifierait que vous essayez d'affecter des objets à des classes qui n'apparaissent même pas dans les données de formation. $P(Y = y)$

De plus, je n'ai jamais rencontré le terme lissage. Le lissage de Laplace ou Additif est beaucoup plus courant. $k$

alto
la source

La raison du lissage en général est d'éviter de sur-ajuster les données. Le cas où le nombre d'une classe est nul n'est qu'un cas particulier de sur-ajustement (qui s'avère particulièrement mauvais). Vous pouvez toujours vouloir lisser les probabilités lorsque chaque classe est observée. Je suppose que je suis gêné par l'asymétrie apparente - le lissage de Laplace correspond à l'hypothèse qu'il y a des observations supplémentaires dans votre ensemble de données. Pourquoi voudriez-vous ignorer ces observations lors de l'ajustement du prieur?

Chris Taylor

P (Y = y)

$P(Y = y)$

P (X_{i} = x_{i} | Y = y)

$P(X_i = x_i | Y = y)$

"cette situation ne devrait pas se produire. Si c'était le cas, cela signifierait que vous essayez d'affecter des objets à des classes qui n'apparaissent même pas dans les données de formation". Euh ... comment un classificateur attribuerait-il un objet à une classe qu'il n'avait jamais vue auparavant (c.-à-d. Qu'il n'est pas dans les données d'apprentissage)?

Jemenake

@Jemenake Le problème est normalement appelé apprentissage Zero-shot, par exemple, voir Zero-Shot Learning with Semantic Output Codes

alto

lorsque nous formons le modèle à l'aide de l'ensemble de données d'apprentissage, nous pourrions créer un vocabulaire en utilisant les mots apparaissant dans l'ensemble de données d'apprentissage, alors pourquoi ne pas simplement supprimer de nouveaux mots ne figurant pas dans le vocabulaire lorsque vous faites des prédictions sur l'ensemble de test?

avocat

Lissage dans le modèle Naive Bayes

Réponses: