Selon Wikipedia :
Informellement, du point de vue de la théorie algorithmique de l'information, le contenu informationnel d'une chaîne équivaut à la longueur de la représentation autonome la plus courte possible de cette chaîne.
Quelle est la définition rigoureuse informelle analogue des "informations utiles"? Pourquoi les "informations utiles" ne sont-elles pas considérées comme le concept le plus naturel ou le plus fondamental; naïvement, il semble qu'une chaîne purement aléatoire doive par définition ne contenir aucune information, donc j'essaie de me faire une idée du fait qu'elle est considérée comme ayant une information maximale selon la définition standard.
Réponses:
Le concept central ici est la complexité de Kolmogorov , et plus spécifiquement la compressibilité . Pour obtenir une sensation intuitive de compressibilité, considérons deux chaînes et B ∈ B ∗ , où B = { 0 , 1 } . LaisserA∈B∗ B∈B∗ B={0,1}
Notez que . Comment pourrions-nous quantifier la quantité d'informations A ou B ? Si l'on pense à la théorie classique de l'information, en général, la transmission d'une chaîne de longueur n prend en moyenne n bits. Cependant, nous ne pouvons pas dire de combien de bits nous avons besoin pour transmettre une chaîne de longueur spécifique|A|=|B|=16 A B n n .n
Pourquoi le contenu informationnel d'une chaîne aléatoire n'est-il pas nul?
En y regardant de plus près, nous pouvons voir qu'en fait . Cependant, il est beaucoup plus difficile de dire si B a des motifs évidents dans sa structure, au moins il semble et se sent plus aléatoire que A . Parce que nous pouvons trouver un modèle dans A , nous pouvons facilement compresser A et le représenter avec moins de 16 bits. De même, comme il n'est pas facile de détecter des motifs dans B , nous ne pouvons pas le compresser autant. On peut donc dire que B a plus d'informations que AA=108 B A A A 16 B B A . De plus, une chaîne aléatoire de longueur n a une information maximale car il n'y a aucun moyen de la compresser, et donc de la représenter avec moins de bits.n
Quelles sont donc les informations utiles?
Pour des informations utiles , oui, il y a une définition en utilisant une machine de Turing . Les informations utiles dans x ∈ B ∗ sontT x∈B∗
où désigne la longueur d'un codage auto-limitation pour une machine de Turing T . La notation est généralement telle que C ( x ) dénote la complexité de Kolmogorov de x et C ( x | y ) la complexité de Kolmogorov conditionnelle de x étant donné yl(T) T C(x) x C(x|y) x y .
Ici, la quantité d'informations utiles contenues dans x . Ce que nous pourrions demander, c'est quel tel T sélectionner parmi ceux qui satisfont à l'exigence. Le problème est de séparer un programme le plus court x ∗ en parties x ∗ = p q st p représente un T approprié . C'est en fait l'idée même qui a engendré la longueur minimale de description (MDL) .T x T x∗ x∗=pq p T
la source
Cela pourrait être dû au fait que «utile» est difficile à définir. Supposons que nous ayons un message hautement structuré et riche en informations qui peut être compressé au maximum par un facteur α au message y . Intuitivement, x et y contiennent la même quantité d'informations utiles; en effet, ils contiennent la même quantité d'informations selon la définition habituelle. Imaginez maintenant un préfixe z de x de la même longueur que y ; il ne doit pas contenir plus d'informations utiles que x , donc pas plus que y . Cependant, y est plus "aléatoire" que z , car zx α y x y z x y x y y z z peut être comprimé et ne peuvent pas. Donc, si nous essayons d'associer des informations "utiles" à la compressibilité, nous pourrions rencontrer le paradoxe suivant: un préfixe d'un message pourrait avoir des informations "utiles" plus élevées que le message entier, ce qui semble être une contradiction.y
la source
D'un point de vue moins formel, je pense que cela peut aider si vous vous détachez du mot "aléatoire", car vous avez raison de dire qu'un ensemble de bits vraiment aléatoires ne stocke aucune information dans un sens pratique. (Si je crypte un ensemble de noms et que je vous envoie les valeurs chiffrées, elles peuvent présenter une complexité de Kolmogorov très élevée, mais cela ne vous aidera pas à déterminer les noms).
Mais pensez-y de cette façon. Si vous voyez un site Web dans une langue étrangère (par exemple le suédois, en supposant que vous ne le parlez pas), il sera plus ou moins aléatoire. Il y aura un certain ordre dans les mots, mais pas beaucoup. Cependant, si vous regardez une page Web avec un texte qui ressemble à ceci: 123456123456123456123456 ... et ainsi de suite, vous pourrez le comprendre plus rapidement. Si vous ne parlez pas suédois, vous pourrez probablement en tirer beaucoup plus, même si la page suédoise dit l'équivalent des "six premiers chiffres répétés séquentiellement". Les sites Web contiennent les mêmes informations, mais l'un vous semble aléatoire. Et pour la quantité d'espace, celle que vous comprenez est beaucoup moins efficace que la page Web suédoise, même si elle stocke les mêmes informations. Vous ne trouverez peut-être pas ces informations "utiles" car elles "
La notion d '"information" est censée être universelle, donc ce qui ressemble à des bits aléatoires - et donc inutiles - pour vous peut stocker beaucoup d'informations à quelqu'un d'autre. La mesure de l'information est destinée à être une propriété intrinsèque de la chaîne et ne peut pas dépendre de ce qui vous semble ou non logique, ni de ce que vous pouvez et ne pouvez pas interpréter.
Un autre point (plus technique) qui peut aider est que je suis un peu malhonnête ici. Comme le souligne Juho, l'information estdéfini par rapport à qui l'interprète. Vous pouvez trouver la page Web suédoise complètement inutile comme véhicule d'information, mais quelqu'un qui parle suédois peut trouver qu'elle contient beaucoup d'informations. La définition reflète cela. Cependant, à partir des mathématiques, nous pouvons apprendre que la différence entre la page Web la plus courte (la plus informative pour l'espace) pour vous communiquer ce site Web et la page Web la plus courte qui peut le communiquer à quelqu'un qui parle suédois ne peut différer que par une constante additive. Pourquoi? Parce que pour vous, en tant que locuteur non suédois, le moyen le plus court de stocker la page que vous pouvez comprendre est "les six premiers entiers répétés séquentiellement". Cela peut être un peu plus long que le suédois.
la source