Dans la définition des ensembles communs typiques (dans "Elements of Information Theory", ch. 7.6, p. 195), nous utilisons
comme entropie empirique d'une séquence avec . Je n'ai jamais rencontré cette terminologie auparavant. Il n'est défini explicitement nulle part selon l'index du livre.
Ma question est essentiellement la suivante: pourquoi l'entropie empirique n'est pas où est la distribution empirique?
Quelles sont les différences et similitudes les plus intéressantes entre ces deux formules? (en termes de propriétés qu'ils partagent / ne partagent pas).
Réponses:
Si les données sont , qui est un n -Séquence à partir d' un espace échantillon X , les probabilités de points empiriques sont p ( x ) = 1xn=x1…xn n X
pourx∈X. Iciδx(xi)est un sixi=xet zéro sinon. Autrement dit, p (x)est la fréquence relative dexdans la séquence observée. L'entropiede la distribution de probabilité donnée par les probabilités de points empiriques est
H( p )=-Σ
la source
L'entropie est définie pour les distributions de probabilité. Lorsque vous n'en avez pas, mais seulement des données, et que vous branchez un estimateur naïf de la distribution de probabilité, vous obtenez une entropie empirique. C'est plus facile pour les distributions discrètes (multinomiales), comme indiqué dans une autre réponse, mais cela peut aussi être fait pour d'autres distributions par binning, etc.
Un problème avec l'entropie empirique est qu'elle est biaisée pour les petits échantillons. L'estimation naïve de la distribution de probabilité montre une variation supplémentaire due au bruit d'échantillonnage. Bien sûr, on peut utiliser un meilleur estimateur, par exemple, un a priori approprié pour les paramètres multinomiaux, mais il n'est pas facile de l'obtenir vraiment sans biais.
Ce qui précède s'applique également aux distributions conditionnelles. De plus, tout est relatif au binning (ou kernelization), donc vous avez en fait une sorte d'entropie différentielle.
la source