Au-delà de l'équation brute pour calculer les informations mutuelles, qu'est-ce que cela signifie en termes physiques? Par exemple: De la théorie de l'information, nous savons que l'entropie est le plus petit schéma de compression sans perte que nous pouvons utiliser sur un alphabet avec une distribution de probabilité spécifique.
Qu'est-ce que cela signifierait en termes d'informations mutuelles?
Contexte: J'essaie de calculer les informations mutuelles des mots unigrammes et de déterminer de quels livres proviennent-ils.
essentiel
information-theory
CyberMen
la source
la source
Réponses:
Par définition, les informations mutuelles concernent deux variables aléatoires (RV) et elles mesurent la dépendance entre les deux RV du point de vue du contenu de l'information, c'est-à-dire la mesure de la quantité d'informations contenues par un RV par rapport à l'autre RV. Et l'information mutuelle est une quantité symétrique, c'est-à-dire,je( X; Oui) = I( O; X) .
Dans le cas d'un canal de communication, la capacité maximale réalisable pour le canal est le maximum des informations mutuelles entre l'entrée et la sortie du canalC=maxp ( x )je( X; Oui) .
Dans votre cas, les deux VR et correspondraient à des livres et à des mots. Les informations mutuelles mesureraient la quantité d'informations communes à une paire (livre, mot). De toute évidence, vous associeriez le mot au livre avec lequel vous disposez du maximum d'informations mutuelles. Il s'agit de l'approche d'information mutuelle maximale.X Oui
la source
Deux prises intuitives supplémentaires sur les informations mutuelles:
Lorsque deux variables aléatoires sont indépendantes, la distribution conjointe et le produit des distributions marginales et sont identiques. On pourrait ainsi évaluer le degré d'indépendance entre deux variables aléatoires en calculant une distance probabiliste entre et - cette distance étant nulle lorsque les deux variables sont indépendantes. Une distance probabiliste commune entre les variables est la divergence de Kullback-Leibler. Si vous prenez la divergence de Kullback-Leibler entre la distribution conjointe et le produit des marginaux de deux variables aléatoires, vous vous retrouvez avec ... des informations mutuelles.p ( x , y) p ( x ) p ( y) p ( x ) × p ( y) p ( x , y)
Du point de vue de la compression / codage, imaginez que l'on vous donne une séquence de paires d'observations . Vous souhaitez les compresser dans un fichier. Deux stratégies: stocker tous les (x) dans un fichier compressé puis indépendamment tous les (y) dans un autre fichier compressé; vs compression des paires. En utilisant un codeur optimal, la taille du fichier dans le premier cas est , tandis que dans le second cas, la taille du fichier est . La deuxième approche est plus efficace s'il existe une relation entre les deux variables observées! Combien de bits avons-nous économisés par observation?N ( x , y) N× H( X) + N× H( O) N× H( X, Y) N× H( X) + N× H( O) - N× H( X, Y)N= Je( X, Y) ! Les informations mutuelles nous indiquent donc combien de bits par observation économisons-nous en codant deux flux de données conjointement plutôt qu'indépendamment.
Je ne suis pas sûr de votre exemple, cependant ... Des informations mutuelles sont calculées entre deux variables aléatoires (distributions). Je peux voir comment "livre" peut représenter la distribution des mots dans un livre; mais je ne suis pas sûr de ce que signifie "mot" ici. L'information mutuelle nécessite également le calcul d'observations «appariées».
la source