Quels sont les avantages et les inconvénients de l'application d'informations mutuelles ponctuelles sur une matrice de cooccurrence de mots avant la SVD?

11

Une façon de générer des incorporations de mots est la suivante ( miroir ):

  1. Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning."
  2. Construisez le mot matrice de cooccurrence à partir de lui:

entrez la description de l'image ici

  1. Effectuez SVD sur X et conservez les k premières colonnes de U.

entrez la description de l'image ici

U1:|V|,1:k

Entre les étapes 2 et 3, des informations mutuelles ponctuelles sont parfois appliquées (par exemple, A. Herbelot et EM Vecchi. 2015. Building a shared world: Mapping distributional to model-theoretic semantic spaces . In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing Lisbonne, Portugal .).

Quels sont les avantages et les inconvénients de l'application d'informations mutuelles ponctuelles sur une matrice de cooccurrence de mots avant la SVD?

Franck Dernoncourt
la source

Réponses:

11

selon le livre de Dan Jurafsky et James H. Martin :

"Il s'avère, cependant, que la fréquence simple n'est pas la meilleure mesure d'association entre les mots. Un problème est que la fréquence brute est très asymétrique et peu discriminante. Si nous voulons savoir quels types de contextes sont partagés par l'abricot et l'ananas mais pas par le numérique et l'information, nous n'obtiendrons pas une bonne discrimination de mots comme le, lui ou eux, qui se produisent fréquemment avec toutes sortes de mots et ne sont pas informatifs sur un mot particulier. "

parfois, nous remplaçons cette fréquence brute par des informations mutuelles positives ponctuelles:

PPMI(w,c)=max(Journal2P(w,c)P(w)P(c),0)

PMI à lui seul montre combien il est possible d'observer un mot w avec un mot de contexte C par rapport à les observer indépendamment. Dans PPMI, nous ne conservons que des valeurs positives de PMI. Réfléchissons au moment où le PMI est + ou - et pourquoi nous ne gardons que les négatifs:

Que signifie PMI positif?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • cela se produit lorsque et se produisent mutuellement plus qu'individuellement comme le coup de pied et la balle. Nous aimerions les garder!wc

Que signifie PMI négatif?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • cela signifie que les deux et ou l'un d'eux ont tendance à se produire individuellement! Il peut indiquer des statistiques peu fiables en raison de données limitées, sinon il montre des cooccurrences non informatives, par exemple, «la» et «la balle». ('le' se produit également avec la plupart des mots.)wc

PMI ou particulièrement PPMI nous aide à saisir de telles situations avec une cooccurrence informative.

Maryam Hnr
la source