Je sais que vous avez explicitement demandé une explication intuitive et de laisser de côté la définition formelle, mais je pense qu'ils sont plutôt liés, alors permettez-moi de rappeler la définition de l'ensemble typique:
X1,X2,...sontiidvariables aléatoires∼ p(x) , alors l'ensemble typiqueA(n)ϵ par rapport àp(x) est l'ensemble des séquences(x1,x2,...,xn)∈χn avec la propriété
2−n(H(X)+ϵ)≤p(x1,x2,...,xn)≤2−n(H(X)−ϵ)(1)
Cela signifie que pour un fixeϵ, l'ensemble typique est composé de toutes les séquences dont les probabilités sontprochesde2−nH(X). Donc, pour qu'une séquence appartienne à l'ensemble typique, elle doit simplement avoir une probabilité proche de2−nH(X) , ce n'est généralement pas le cas. Pour comprendre pourquoi, permettez-moi de réécrire l'équation 1 en y appliquantlog2 .
H(X)−ϵ≤1nlog2(1p(x1,x2,...,xn))≤H(X)+ϵ(2)
Maintenant, la définition d'ensemble typique est plus directement liée au concept d'entropie, ou énoncée d'une autre manière, l'information moyenne de la variable aléatoire. Le moyen terme peut être considéré comme l'entropie échantillon de la séquence, donc l'ensemble typique est faite par toutes les séquences qui nous donnent une quantité d'information à proximité de l'information moyenne de la variable aléatoire X . La séquence la plus probable nous donne généralement moins d'informations que la moyenne. N'oubliez pas que plus la probabilité d'un résultat est faible, plus les informations qu'il nous donne seront élevées. Pour comprendre pourquoi permettez-moi de donner un exemple:
Supposons que vous vivez dans une ville dont le temps est très susceptible d'être ensoleillé et chaud, entre 24 ° C et 26 ° C. Vous pouvez regarder le bulletin météo tous les matins, mais vous vous en foutez, je veux dire, il fait toujours beau et chaud. Mais que se passe-t-il si un jour l'homme / la femme météo vous dit qu'aujourd'hui sera pluvieux et froid, cela changera la donne. Vous devrez utiliser des vêtements différents et prendre un parapluie et faire d'autres choses que vous n'avez pas l'habitude, donc l'homme météo vous a donné une information vraiment importante.
Pour résumer, la définition intuitive de l'ensemble typique est qu'il se compose de séquences qui nous donnent une quantité d'informations proche de celle attendue de la source (variable aléatoire).
$$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$
...La réponse de Diegobatt explique bien intuitivement ce qu'est un ensemble typique. Cette réponse répondra à l'autre question du PO, reprise par @tomwesolowski: pourquoi définiriez-vous l'ensemble typique de manière à exclure les éléments les plus probables?
La réponse courte est que l' ensemble typique est avant tout un outil mathématique. Il a été défini pour aider à prouver quelque chose, et cette définition est la plus pratique pour la preuve. C'est un bon exemple de la façon dont les besoins théoriques peuvent parfois l'emporter sur les préférences intuitives en mathématiques.
L'ensemble typique a été défini par le père de la théorie de l' information , Claude Shannon . Il voulait déterminer l'efficacité avec laquelle on pourrait éventuellement coder un flux de symboles d'un alphabet fixe, en supposant que chaque symbole est un échantillon aléatoire iid d'une certaine distribution. Ses idées clés étaient les suivantes:
L'ensemble typique découvert par Shannon est composé précisément des séquences dont l' auto-information , ou «surprenante nesse», est à peu près la même que l'auto-information attendue , en moyenne, pour la distribution de la source du flux. De telles séquences sont "typiques" dans le sens où leurs informations sont dans la moyenne, mais cette définition exclut implicitement les séquences qui ont beaucoup moins d'informations que la moyenne. Ces séquences moins informatives sont également les plus probables.
Comme le note l'OP, ce n'est pas intuitivement attrayant! À première vue, l'ensemble typique sonne comme s'il devrait contenir toutes les séquences les plus probables jusqu'à un certain seuil. Cela représenterait mieux ce qui est généralement vu dans le flux.
Mais Shannon ne voulait pas de l'ensemble typique le plus "typique" possible; il en voulait un qui facilitait la preuve du résultat qu'il voulait prouver. Il est garanti que l'ensemble typique défini par Shannon existe, qu'il est petit et qu'il est à peu près aussi petit que tout autre ensemble que vous pourriez proposer, comme le souligne cette réponse . L'ajout des éléments les plus probables rend l'ensemble plus probable, ce qui est bien, mais il agrandit également l'ensemble, ce qui est mauvais. Si tout ce dont vous vous souciez est de faire votre preuve, pourquoi réparer ce qui n'est pas cassé?
Si vous avez des objectifs différents de Shannon, votre concept de typicité préféré pourrait également être différent. Par exemple, dans le codage Huffman , les symboles (ou séquences de symboles) les plus probables obtiennent les codes les plus courts. Dans un certain sens technique, le codage Huffman est la solution optimale au problème original de Shannon, et il capture mieux notre intuition sur la typicité. D'un autre côté, la définition de Shannon de la typicité est plus pratique pour prouver les choses.
la source
L'idée d'un ensemble typique traite implicitement les séquences de résultats comme des ensembles multiples, c'est-à-dire qu'elle suppose que vous vous souciez juste de l'histogramme de chaque séquence, par exemple, vous considérez les 10 séquences de lancer de pièces avec 7 têtes et 3 queues comme équivalentes.
Le résultat important est que pour des séquences suffisamment longues, presque toutes les séquences échantillonnées auront été arbitrairement proches des fréquences attendues, c'est-à-dire que la distribution deviendra extrêmement maximale lorsque la longueur des séquences considérées augmentera.
Un ensemble typique est une version plus générale et théoriquement définie de cette idée.
la source
Selon le théorème 6.3 de ces notes de cours, peu importe si nous prenons un sous-ensemble de séquences avec la probabilité la plus élevée ou celles avec une probabilité proche de2- n H( X) (à partir d'un ensemble typique), nous devons prendre environ 2n H pour vous assurer que le sous-ensemble choisi contient une séquence aléatoire avec une probabilité élevée. Nous prenons généralement des éléments d'ensemble typiques, car nous pouvons en délimiter la taille plus facilement.
la source