Un algorithme de test de distribution pour une propriété de distribution P (qui n'est qu'un sous-ensemble de toutes les distributions sur [n]) est autorisé à accéder aux échantillons en fonction d'une distribution D, et doit décider (whp) si ou ( voici généralement la distance ℓ 1 ). La mesure de complexité la plus courante est le nombre d'échantillons utilisés par l'algorithme.d ( D , P ) > ϵ d
Maintenant, dans les tests de propriétés standard, où vous avez accès à une requête à un objet, une limite inférieure linéaire sur la complexité de la requête est évidemment la borne inférieure la plus forte possible, car requêtes révéleraient l'objet entier. Est-ce également le cas pour les tests de distribution?
Pour autant que je sache, la limite supérieure "triviale" pour tester les propriétés des distributions est --- par les limites de Chernoff, cela suffit pour "écrire" une distribution D 'qui est proche de D dans ℓ 1 distance, et alors nous pouvons simplement vérifier s'il y a des distributions proches de D 'qui sont dans P (cela peut prendre un temps infini, mais ce n'est pas pertinent pour la complexité de l'échantillon).
- Existe-t-il un meilleur test «trivial» pour toutes les propriétés de distribution?
- Existe-t-il des propriétés de distribution pour lesquelles nous savons que les limites inférieures de l'échantillon sont plus fortes que linéaires?
Réponses:
Désolé d'avoir déniché ce message - il est assez ancien, mais je me suis dit que la réponse à cette question n'était peut-être pas une si mauvaise idée.
Tout d'abord, il semble que vous ayez effectué votre liaison Chernoff avec un réglage légèrement étrange des paramètres. Notez que pour effectuer votre approche "test par apprentissage" suggérée, il suffit d'apprendre la distribution en distance de variation totale (ou , si vous préférez, qui est la même jusqu'à un facteur 2) à la distance εℓ1 . (avant de vérifier "hors ligne" s'il y a une distributionp'ayant la propriétéPnqui elle-même est à distance au plusεε2 p′ Pn à partirvotre hypothèse appris p ). Cela conduirait naïvement à unO(nlognε2 p^ la complexité de l'échantillon limite supérieure pour cette approche; cependant, il est connu (et "folklore") que l'apprentissage d'une distribution arbitraire sur un domaine de taillenjusqu'à la distanceε(dans la distance de variation totale) ne peut se faire qu'avecO(nO ( n lognε2) n ε échantillons (et c'est serré).O ( nε2)
Ainsi, la ligne de base devrait en fait être , qui est déjà linéaire enn. Maintenant, on peut se poser la question suivante -existe-t-il des propriétés "naturelles" pour lesquelles le test (par exemple, pour la constanteε) nécessite une dépendance linéaire dans la taille de domainen?O ( nε2) n ε n
La réponse est (pour autant que je sache) "pas tout à fait, mais proche". À savoir, à la suite d'une ligne de travail importante sur l'estimation des propriétés des distributions (ou de manière équivalente, des tests de propriété tolérants), les résultats de Valiant et Valiant impliquent (STOCS'11, FOCS'11 et quelques autres) que la propriété plutôt artificielle "étant -proche à uniforme "a une complexité d'échantillon Θ ε ( n1 / 10 .Θε( nJournaln)
(Notez que c'est un peu "tricher", dans le sens où la propriété est simplement un moyen de prendre une question de test tolérante et de la renommer en testant une propriété ad hoc ).
Si cela n'est pas entièrement suffisant pour étancher votre soif, on peut aussi montrer que pour la propriété (naturelle?) D ' "être un histogramme" (la distribution est-elle constante par morceaux sur un ensemble de k intervalles inconnus?), En fixant k = n / 10, par exemple, donne également un Ω ( nk k k = n / 10 borne inférieure(c'est dans un de mes papiers de 2016; la borne inférieure découle d'une réduction assez simple du résultat des Vaillants). Maintenant, si vous considérez "être unnΩ ( nJournaln) -histogramme "pour être une propriété naturelle est à vous.n100
la source