selon le livre de Dan Jurafsky et James H. Martin :
"Il s'avère, cependant, que la fréquence simple n'est pas la meilleure mesure d'association entre les mots. Un problème est que la fréquence brute est très asymétrique et peu discriminante. Si nous voulons savoir quels types de contextes sont partagés par l'abricot et l'ananas mais pas par le numérique et l'information, nous n'obtiendrons pas une bonne discrimination de mots comme le, lui ou eux, qui se produisent fréquemment avec toutes sortes de mots et ne sont pas informatifs sur un mot particulier. "
parfois, nous remplaçons cette fréquence brute par des informations mutuelles positives ponctuelles:
PPMI ( w , c ) = max ( log2P( w , c )P( w ) P( c ), 0 )
PMI à lui seul montre combien il est possible d'observer un mot w avec un mot de contexte C par rapport à les observer indépendamment. Dans PPMI, nous ne conservons que des valeurs positives de PMI. Réfléchissons au moment où le PMI est + ou - et pourquoi nous ne gardons que les négatifs:
Que signifie PMI positif?
P( w , c )( P( w ) P( c ) )> 1
P( w , c ) > ( P( w ) P( c ) )
cela se produit lorsque et se produisent mutuellement plus qu'individuellement comme le coup de pied et la balle. Nous aimerions les garder!wc
Que signifie PMI négatif?
P( w , c )( P( w ) P( c ) )< 1
P( w , c ) < ( P( w ) P( c ) )
cela signifie que les deux et ou l'un d'eux ont tendance à se produire individuellement! Il peut indiquer des statistiques peu fiables en raison de données limitées, sinon il montre des cooccurrences non informatives, par exemple, «la» et «la balle». ('le' se produit également avec la plupart des mots.)wc
PMI ou particulièrement PPMI nous aide à saisir de telles situations avec une cooccurrence informative.