Modélisation du langage: pourquoi l'ajout de 1 est-il si important?

8

Dans de nombreuses applications de traitement du langage naturel telles que la correction d'orthographe, la traduction automatique et la reconnaissance vocale, nous utilisons des modèles de langage. Les modèles de langage sont généralement créés en comptant la fréquence à laquelle les séquences de mots (n-grammes) se produisent dans un grand corpus et en normalisant les nombres pour créer une probabilité. Pour tenir compte des n-grammes invisibles, nous utilisons des méthodes de lissage (voir plusieurs énumérées ici ) qui prennent une partie de la masse de probabilité des n-grammes qui sont attestés dans le modèle et répartissent cette masse entre les n-grammes d'ordre inférieur (séquences de mots plus courtes ) probabilités d'interruption.

De nombreuses techniques de lissage deviennent mathématiquement complexes en raison de la contrainte que les calculs doivent conserver la distribution comme une probabilité (doit s'additionner à 1).

Quelle est la raison de cette contrainte? Quel est l'avantage d'utiliser des probabilités strictes pour la prédiction au lieu de scores de tout autre type?

PS La référence correspondant au lien est [Stanley F. Chen et Joshua Goodman (1998), «An Empirical Study of Smoothing Techniques for Language Modeling»].

user9617
la source
1
Je ne travaille pas dans ce domaine, mais je ne vois pas pourquoi la somme des valeurs observées puis la division de chaque valeur par le total devraient rendre l'algorithme difficile à manier. Il me semble que si les modèles sont trop complexes, lents ou numériquement instables (etc.), le problème est plus probable ailleurs.
gung - Rétablir Monica
Ne pas diviser les chiffres en premier lieu n'est pas si mal. Cela devient plus compliqué lorsque vous effectuez un lissage. Katz, par exemple: en.wikipedia.org/wiki/Katz's_back-off_model
user9617
@ user9617 votre lien est mort. Pourriez-vous s'il vous plaît le mettre à jour ou mieux ajouter la référence afin que les gens puissent toujours Google la ressource à l'avenir? Merci d'avance
Antoine
@Antoine fait. Je ne comprends pas très bien ce qui est arrivé au PDF auquel je faisais un lien auparavant, mais celui-ci est tout aussi bon.
user9617
@ user9617 Merci +1! J'ai ajouté la référence correspondante au cas où le lien mourrait à nouveau à l'avenir.
Antoine

Réponses:

5

Les principaux avantages de l'utilisation de probabilités strictes sont a) la facilité d'interprétation des nombres; et b) être capable d'utiliser le théorème de Bayes et d'autres méthodes probabilistes dans l'analyse subséquente. Dans certaines situations cependant, ce n'est pas nécessaire. Par exemple, si vous souhaitez simplement classer les résultats sans autre analyse, il n'est pas nécessaire de normaliser les scores.

procureur
la source