Votre question porte sur le problème de récupération "exact" (nous voulons récupérer un k-sparse xexactement donné Ax ). Dans ce qui suit, je me concentrerai sur la version "robuste", où x est un vecteur arbitraire et le but de l'algorithme de récupération est de trouver une approximation k parsée x′ à x (cette distinction importe en fait pour une partie de la discussion ci-dessous ). Formellement, vous voulez suivre le problème (appelez-le P1 ):
Conception A telle que pour tout x on puisse récupérer x′ où
∥x−x′∥L≤
minx"C∥x−x"∥R , oùx" s'étend sur tous lesvecteursk -pars.
Ici, ∥⋅∥L et désigne la norme gauche et la droite, et ℓ 1∥⋅∥RC est le "facteur d'approximation". Il existe différents choix possibles pour et ‖ ⋅ ‖ R . Pour le concret, on peut penser que les deux sont égaux à ℓ 2 ou ; cela peut devenir plus salissant cependant.∥⋅∥L∥⋅∥Rℓ2ℓ1
Passons maintenant à certains des analogies et des généralisations.
Base arbitraire. Tout d'abord, notez que tout schéma satisfaisant à la définition ci-dessus peut être utilisé pour résoudre un problème plus général, où le signal récupéré x′ est rare sur une base arbitraire (disons, ondelette de Fourier), pas seulement le standard. Soit la matrice de base. Formellement, un vecteur u est k- sparse dans la base B si u = B v où v est k- sparse. Nous pouvons maintenant considérer le problème généralisé (appelons-le P BBukBu=BvvkPB ):
Conception telle que, étant donné A B x , on peut récupérer x ′ où ‖ x - x ′ ‖ L ≤ABABxx′∥x−x′∥L≤
, où x " s'étend sur tous les vecteurs qui sont k -sparse dans Bminx"C∥x−x"∥Rx"kB .
On peut réduire ce problème au problème précédent en changeant la base, c'est-à-dire en utilisant une matrice de mesure A B = A B - 1 . Si nous avons une solution à P 1 dans leP1AB=AB−1P1norme ℓ 2 (c'est-à-dire, les normes gauche et droite égales à ℓ 2 ), nous obtenons également une solution à P B dans lanorme ℓ 2 . Si P 1 utilise d'autres normes, nous résolvons P B dans ces normes modifiées en changeant la base.ℓ2ℓ2PBℓ2P1PB
Une mise en garde en ce qui précède est que l'approche ci - dessus, nous avons besoin de connaître la matrice afin de définir A B . Peut-être surprenant, si nous permettons à Aléa ( A B est pas fixe mais au lieu choisi au hasard), il est possible de choisir un B de la distribution fixe qui est indépendante de B . Il s'agit de la propriété dite d' universalité .BABABABB
Dictionnaires. La généralisation suivante peut être obtenue en supprimant l'exigence selon laquelle est une base. Au lieu de cela, nous pouvons autoriser B à avoir plus de lignes que de colonnes. Ces matrices sont appelées dictionnaires (trop complets). Un exemple populaire est la matrice d'identité au-dessus de la matrice de Fourier. Un autre exemple est une matrice où les lignes sont les vecteurs caractéristiques de tous les intervalles dans {1 ... n}; dans ce cas, l'ensemble { B u : u est k-sparse } contient tous les " k -histogrammes", c'est-à-dire des fonctions constantes par morceaux sur {1 ... n} avec au plus kBBBu:u is k-sparsekk pièces.
Pour autant que je sache, il n'existe pas de théorie générale pour de tels dictionnaires arbitraires, bien qu'il y ait eu pas mal de travail sur ce sujet. Voir, par exemple,
Candes-Eldar-Needell'10 ou
Donoho-Elad-Temlyakov, IEEE Transactions on Information Theory, 2004 .
L'esquisse d'histogrammes a été largement étudiée dans la littérature en streaming et dans les bases de données, par exemple,
Gilbert-Guha-Indyk-Kotidis-Muthukrishnan-Strauss, STOC 2002 ou
Thaper-Guha-Indyk-Koudas, SIGMOD 2002 .
Des modèles. (également mentionné par Arnab). Une généralisation différente consiste à introduire des restrictions sur les modèles de rareté. Soit un sous-ensemble de k sous-ensembles de {1 ... n}. Nous disons que u est M -sparse si le support de u est inclus dans un élément de M . Nous pouvons maintenant poser le problème (appelons-le P M ):MkuMuMPM
Conception telle que pour tout x on puisse récupérer x ′ où ‖ x - x ′ ‖ L ≤Axx′∥x−x′∥L≤
, où x " s'étend sur tous lesvecteurs M -pars.minx"C∥x−x"∥Rx"M
Par exemple, les éléments de pourraient être de la forme I 1 ∪M , où chaque I i correspond à un "sous-bloc" de {1 ... n} d'une certaine longueur b , c'est-à-dire que I i est de la forme {jb + 1 ... (j + 1) b} pour certains j . Il s'agit du modèle dit "à faible densité de blocs". I1∪…∪IkIibIij
Les avantages des modèles sont que l'on peut économiser sur le nombre de mesures, par rapport à l' approche générique de parité. Cela est dû au fait que l'espace des signaux M- sparse est plus petit que l'espace de tous les signaux k- sparse, donc la matrice A doit conserver moins d'informations. Pour plus d'informations, voir
Baraniuk-Cevher-Duarte-Hegde, IEEE Transactions on Information Theory, 2010 ou
kMkA Eldar-Mishali, IEEE Transactions on Information Theory, 2009 .
J'espère que cela t'aides.
Je suppose que, au niveau de généralité dans lequel j'ai posé la question, l'article "Compression des sources échantillonnables" de Trevisan, Vadhan et Zuckerman (2004) constitue également une réponse possible. Ils montrent que dans de nombreux cas, si la source des chaînes d'entrée est de faible complexité (par exemple, échantillonnable par les machines de l'espace de journalisation), alors on peut compresser et décompresser, en temps polynomial pour allonger une constante additive loin de l'entropie de la source.
Je ne sais pas vraiment si la détection compressée peut être intégrée dans une théorie plus large de la compression.
la source
Un analogue de la détection compressive est dans l'apprentissage automatique lorsque vous essayez d'estimer un vecteur de poids dimensionnel élevé (par exemple, en classification / régression) à partir d'un très petit échantillon. Pour faire face à des systèmes sous-déterminés d'équations linéaires dans de tels paramètres, on applique généralement une rareté (via une pénalité de l0 ou l1) sur le vecteur de poids en cours d'apprentissage. Pour voir la connexion, considérez le problème de classification / régression suivant de l'apprentissage automatique:
Représenter les N exemples de dimensions D chacun (D >> N) comme une matrice NxD X. Représenter les N réponses (une pour chaque exemple) comme un vecteur Nx1 Y. Le but est de résoudre pour un vecteur Dx1 thêta via l'équation suivante : Y = X * thêta
Voici maintenant l'analogie de ce problème avec la détection compressive (CS): vous voulez estimer / mesurer le thêta qui est un vecteur dimensionnel D (semblable à un "signal" inconnu dans CS). Pour estimer cela, vous utilisez une matrice X (semblable à la matrice de conception dans CS) et N mesures 1-D Y (semblable au signal compressé dans CS, depuis D >> N).
la source
Voir: http://www.damtp.cam.ac.uk/user/na/people/Anders/Inf_CS43.pdf
la source