Andrew More définit le gain d'information comme suit:
où est l' entropie conditionnelle . Cependant, Wikipedia appelle les informations mutuelles de quantité ci-dessus .
D'autre part, Wikipedia définit le gain d'information comme la divergence de Kullback – Leibler (ou divergence d'information ou entropie relative) entre deux variables aléatoires:
où est défini comme l' entropie croisée .
Ces deux définitions semblent être incompatibles l'une avec l'autre.
J'ai également vu d'autres auteurs parler de deux concepts connexes supplémentaires, à savoir l'entropie différentielle et le gain d'informations relatives.
Quelle est la définition ou relation précise entre ces quantités? Y a-t-il un bon livre de texte qui les couvre tous?
- Gain d'information
- Information mutuelle
- Entropie croisée
- Entropie conditionnelle
- Entropie différentielle
- Gain relatif d'information
information-theory
Amelio Vazquez-Reina
la source
la source
Réponses:
Je pense que qualifier de "gain d'information" la divergence de Kullback-Leibler n'est pas standard.
La première définition est standard.
EDIT: Cependant, peut aussi être appelé information mutuelle.H(Y)−H(Y|X)
Notez que je ne pense pas que vous trouverez une discipline scientifique ayant réellement un schéma de dénomination normalisé, précis et cohérent. Vous devrez donc toujours regarder les formules, car elles vous donneront généralement une meilleure idée.
Manuels: voir "Bonne introduction à différents types d'entropie" .
Également: Cosma Shalizi: Méthodes et techniques de la science des systèmes complexes: vue d'ensemble, chapitre 1 (p. 33–114) dans Thomas S. Deisboeck et J. Yasha Kresh (éd.), Science des systèmes complexes en biomédecine http: // arxiv.org/abs/nlin.AO/0307015
Robert M. Gray: Théorie de l'entropie et de l'information http://ee.stanford.edu/~gray/it.html
David MacKay: Théorie de l'information, algorithmes d'inférence et d'apprentissage http://www.inference.phy.cam.ac.uk/mackay/itila/book.html
aussi, "Qu'est-ce que" l'entropie et le gain d'information "?"
la source
La divergence de Kullback-Leiber entrep ( X, Y) et P( X) P( Y) est la même que l'information mutuelle, qui peut être facilement dérivée:
Note:p(y)=∑xp(x,y)
la source
Mutual information can be defined using Kullback-Liebler as
la source
Extracting mutual information from textual datasets as a feature to train machine learning model: ( the task was to predict age, gender and personality of bloggers)
la source
Both definitions are correct, and consistent. I'm not sure what you find unclear as you point out multiple points that might need clarification.
Firstly:MIMutualInformation≡ IGInformationGain≡IInformation are all different names for the same thing. In different contexts one of these names may be preferable, i will call it hereon Information.
The second point is the relation between the Kullback–Leibler divergence-DKL , and Information. The Kullback–Leibler divergence is simply a measure of dissimilarity between two distributions. The Information can be defined in these terms of distributions' dissimilarity (see Yters' response). So information is a special case of KLD , where KLD is applied to measure the difference between the actual joint distribution of two variables (which captures their dependence) and the hypothetical joint distribution of the same variables, were they to be independent. We call that quantity Information.
The third point to clarify is the inconsistent, though standard notation being used, namely thatH(X,Y)
is both the notation for Joint entropy and for Cross-entropy as well.
So, for example, in the definition of Information:I(X;Y)≡H(X)−H(X|Y)≡H(Y)−H(Y|X)≡H(X)+H(Y)−H(X,Y)≡H(X,Y)−H(X|Y)−H(Y|X)
in both last lines, H(X,Y) is the joint entropy. This may seem inconsistent with the definition in the Information gain page however:
DKL(P||Q)=H(P,Q)−H(P) but you did not fail to quote the important clarification - H(P,Q) is being used there as the cross-entropy (as is the case too in the cross entropy page).
Joint-entropy and Cross-entropy are NOT the same.
Check out this and this where this ambiguous notation is addressed and a unique notation for cross-entropy is offered -Hq(p)
I would hope to see this notation accepted and the wiki-pages updated.
la source