Rapport log-vraisemblance dans la synthèse des documents

9

J'ai d'abord demandé cela sur le débordement de la pile et j'ai été renvoyé à ce site, alors voici:

J'implémente des méthodes non supervisées de synthèse de documents basés sur la sélection / extraction de contenu et je suis confus quant à ce que mon manuel appelle le «rapport de vraisemblance logarithmique». Le livre Speech and Language Processing de Jurafsky & Martin le décrit brièvement comme tel:

Le LLR d'un mot, généralement appelé lambda (w), est le rapport entre la probabilité d'observer w dans le corpus d'entrée et dans le corpus de fond en supposant des probabilités égales dans les deux corpus, et la probabilité d'observer w dans les deux en supposant des probabilités différentes pour w dans le corpus d'entrée et d'arrière-plan.

En décomposant cela, nous avons le numérateur: "la probabilité d'observer w à la fois dans le corpus d'entrée et dans le corpus de fond en supposant des probabilités égales dans les deux corpus" - Comment puis-je calculer la probabilité à utiliser ici?

et le dénominateur: "la probabilité d'observer w dans les deux en supposant des probabilités différentes pour w dans le corpus d'entrée et de fond". - est-ce aussi simple que la probabilité d'occurrence du mot dans les entrées multipliée par la probabilité d'occurrence du mot dans le corpus? ex:

(nombre (mot, entrée) / nombre total de mots en entrée) * (nombre (mot, corpus) / nombre total de mots dans le corpus)

J'ai examiné un document dans lequel mes références de livre, Accurate Methods for the Statistics of Surprise and Coincidence (Dunning, 1993), mais j'ai du mal à comprendre le problème du calcul des valeurs LLR pour chaque mot dans un résumé basé sur l'extraction. Toute clarification ici serait vraiment appréciée.

Richard
la source
1
Pouvez-vous nous dire ce qu'est le manuel?
2011
Traitement de la parole et du langage par Jurafsky & Martin
Richard

Réponses:

1

Avec mes connaissances limitées, je pense:

  1. "la probabilité d'observer w en entrée" nécessite une distribution afin de calculer la valeur
  2. "la probabilité d'observer w à la fois dans le corpus d'entrée et dans le corpus de fond en supposant des probabilités égales dans les deux corpus" signifie "la probabilité d'observer w ... étant donné que la probabilité de w est égale dans les deux corpus".

Voici ma formulation pour cela:


Formuler un peu le problème:

  1. Hypothèse 1: P (w en entrée) = P (w en arrière-plan) = p
  2. Hypothèse 2: P (w en entrée) = p1 et P (w en arrière-plan) = p2 et p1 p2

La partie critique est que vous devrez assumer une distribution ici. Simplement, nous supposons une distribution binomiale pour générer w dans un texte. Étant donné les données échantillonnées, nous pouvons utiliser l'estimation du maximum de vraisemblance pour calculer la valeur de p, p1 et p2, et les voici:

  1. p = (nombre de w-en-entrée + nombre-de-w-en-arrière-plan) / (taille d'entrée + taille d'arrière-plan) = (c1 + c2) / (N1 + N2)
  2. p1 = c1 / N1
  3. p2 = c2 / N2

Nous voulons savoir quelle hypothèse est la plus probable. Par conséquent, nous calculons la probabilité de chaque hypothèse et les comparons les uns aux autres (ce qui est essentiellement ce que fait le rapport de vraisemblance).

Puisque nous supposons une distribution binomiale , nous pouvons calculer la probabilité d'avoir c1 et c2.

Pour l'hypothèse 1:

L (c1) = La probabilité d'observer w en entrée = la probabilité d'atteindre c1 lorsqu'il y a N1 mots en supposant que la probabilité p (ou, en d'autres termes, sélectionner w pour c1 fois sur N1 fois) est b (N1, c1 , p) - veuillez consulter la formule de probabilité binomiale ici

L (c2) = La probabilité d'observer w en arrière-plan = la probabilité d'atteindre c2 quand il y a N2 mots en supposant que la probabilité p est b (N2, c2, p)

Pour l'hypothèse 2, nous pouvons utiliser p1 et p2 à la place.

Maintenant, nous voulons savoir quelle hypothèse est la plus probable; nous aurons besoin de comparer comment une valeur de sortie de chaque hypothèse.

Mais chaque hypothèse a 2 valeurs, L (c1) et L (c2). Comment comparer quelle hypothèse est la plus probable? --- Nous choisissons de les multiplier ensemble pour obtenir une sortie à valeur unique. (parce que c'est analogue à la géométrie, je suppose)

Tanin
la source
dans vos articles, p, p1 et p2 sont des estimations de p, p1 et p2, non?
Xi'an
Oui c'est correct. Statistiquement parlant, ce sont les estimations du maximum de vraisemblance compte tenu des données de l'échantillon et de la distribution binomiale.
Tanin
Merci de l'avoir signalé, btw. J'ai amélioré la réponse.
Tanin