Généraliser le «tour médian» aux dimensions supérieures?

22

Pour les algorithmes randomisés prenant des valeurs réelles, le "tour médian" est un moyen simple de réduire la probabilité d'échec à n'importe quel seuil , au prix d'un multiplicatif seulement frais généraux. A savoir, si la sortie de tombe dans une "bonne plage" avec probabilité (au moins) , puis exécuter des copies indépendantes A 1 , , A t et prendre la médiane de leurs sorties a 1 , , a t se traduira par une valeur tombant dans I δ > 0 t = O ( log 1Aδ>0AI=[a,b]2/3t=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atIavec une probabilité d'au moins 1δ par les bornes de Chernoff / Hoeffding.

Y a-t-il une généralisation de ce "truc" à des dimensions plus élevées, disons Rd , où la bonne plage est maintenant un ensemble convexe (ou une balle, ou tout ensemble suffisamment agréable et structuré)? Autrement dit, étant donné un algorithme aléatoire A délivrer en sortie les valeurs de Rd , et un "bon jeu" SRd de telle sorte que Pr{A(x,r)S}2/3 pour tout x , comment une impulsion la probabilité de réussite à 1δavec seulement un coût logarithmique en 1/δ ?

(Formulé différemment: étant donné fixe, arbitraire a1,,atRd avec la garantie qu'au moins des appartiennent à , existe-t-il une procédure produisant une valeur à partir de ? Si oui, existe-t-il un système efficace?) aiSS2t3aiSS

Et quel est l'ensemble minimum d'hypothèses dont on a besoin sur pour que ce qui précède soit réalisable?S

Désolé si cela s'avère insignifiant - je n'ai pas pu trouver de référence sur cette question ...

Clement C.
la source
3
Dans le cas particulier où S est un cuboïde, cela fonctionne-t-il si vous utilisez le tour médian dans chaque dimension individuellement? Échantillonnez donc un tas de points, puis prenez la médiane de leurs coordonnées dans la dimension 1, 2, ..., d, puis vous obtenez un point dans Rd . Peut-être aurez-vous besoin d' échantillons O(log(d/ϵ)) avec cette stratégie?
Robin Kothari
1
Dans le cas unidimensionnel, vous connaissez généralement mais pas l'intervalle exact (bien que même si vous ne connaissez pas l'astuce médiane fonctionne toujours). Faut-il supposer que nous connaissons mais seulement jusqu'à la traduction? Jusqu'à la traduction et la mise à l'échelle? baSbaS
Sasho Nikolov,
@SashoNikolov Je pense que ce serait la plus "généralisation" (par exemple, nous savons seulement que est une "bonne boule de diamètre ε "). Sε
Clement C.
1
Eh bien, ce que Thomas a écrit dans sa réponse est encore plus général: il suppose que ( G dans sa réponse) est un ensemble convexe inconnu. SG
Sasho Nikolov,

Réponses:

17

Ce que vous recherchez est à peu près la même une tendance centrale robuste : un moyen de réduire un nuage de points de données à un seul point, de sorte que si beaucoup de points de données sont proches d'une certaine "vérité de fond" mais le reste d'entre eux sont arbitrairement éloignés, alors votre sortie sera également proche de la vérité du terrain. Le «point de rupture» d'une telle méthode est la fraction de valeurs aberrantes arbitrairement mauvaises qu'elle peut tolérer. La différence est que dans votre cas, vous voulez remplacer "près de" par "dans la coque convexe de".

Une façon de saisir cela est avec la notion de profondeur de Tukey. Un point a une profondeur de Tukey (par rapport à un ensemble donné de n points de données) si chaque demi-espace contenant le point donné contient également au moins p n points de données. S'il y a un bon sous-espace convexe dans lequel vous voulez être, alors un point avec la profondeur de Tukey p sera à l'intérieur tant qu'il y aura au moins ( 1 - p ) n des points de données à l'intérieur. Le point de rupture de cette méthode est donc la plus grande valeur de p que vous puissiez atteindre.pnpnp(1p)np

Malheureusement, ce point de panne est de , pas proche de 1/2, à la fois pour la profondeur de Tukey et pour votre problème. Voici pourquoi: si vos données sont regroupées près des d + 1 sommets d'un simplexe, tant que moins de 1 / ( d + 1 ) fraction d'entre elles sont aberrantes (mais vous ne savez pas lesquelles), alors n'importe quel point dans le simplex est sûr à prendre car il sera toujours dans la coque convexe des non-aberrants. Mais si plus de 1 / ( d + 1 )1/(d+1)d+11/(d+1)1/(d+1) des points peuvent être des valeurs aberrantes, il n'y a nulle part où il est sûr de choisir: quel que soit le point du simplexe que vous choisissez, les valeurs aberrantes pourraient être tous les points du sommet du simplexe le plus proche, et vous seriez en dehors de la coque du non valeurs aberrantes.

Si vous êtes prêt à tolérer un point de dégradation pire, plus comme , il existe une méthode aléatoire pour trouver un point profond qui est polynomial à la fois en n et en d : voir mon articleO(1/d2)nd

Approximation des points centraux avec des points de radon itérés, K. Clarkson, D. Eppstein, GL Miller, C. Sturtivant et S.-H. Teng, 9e ACM Symp. Comp. Geom. , San Diego, 1993, pp. 91–98, Int. J. Comp. Geom. & Appl. 6 (3): 357–377, 1996, http://kenclarkson.org/center/p.pdf

David Eppstein
la source
Oui. De plus, je mentionnerais que l'on peut utiliser les eps-nets eps-approximations et leurs divers amis comme moyen d'obtenir un petit échantillon qui se rapproche bien de ces mesures de profondeur. Vous n'obtenez pas un seul point, mais vous obtenez bien plus d'informations.
Sariel Har-Peled
Avec la terminologie de votre article, existe-t-il un moyen efficace et connu de vérifier réclamé centre pour les nombres rationnels βββ?
Si par "efficace" vous voulez dire polynôme dans la dimension, alors je ne connais pas un tel résultat. Mon article ne trouve qu'un seul point, il ne vous donne pas plus d'informations sur la distribution spatiale de la profondeur (comme Sariel y fait allusion ci-dessus).
David Eppstein
Merci! Si l'on met de côté les considérations d'efficacité (pour l'instant), cela revient à dire que dans le cas général des ensembles convexes arbitraires, il n'y a aucun moyen d'augmenter la probabilité constante en probabilité arbitraire? (puisque la fraction des bons points doit être supérieure à ? (ou ai-je raté quelque chose - en y repensant, on dirait que la deuxième formulation que j'utilise ne capture pas l'idée de «répétitions indépendantes», où nous aurions en mainplusieursséries de points, chacun ayant au moins un2/troisfraction de bons points).11d+12/3
Clement C.
1
Un point, plusieurs points, ou pas, si tout ce que vous savez, c'est qu'il existe un ensemble convexe mais pas où il se trouve, et que vous voulez pouvoir augmenter la probabilité d'être dans le bon ensemble à mieux alors d / (d + 1), alors la fraction des bons points doit être d'au moins d / (d + 1) pour contourner l'exemple du simplexe. Dans le cas contraire, un adversaire pourrait vous fournir des données sous la forme d'un simplexe et choisir au hasard un voisinage epsilon d'une face du simplexe comme ensemble convexe; même si vous devinez un point près d'un sommet du simplexe au hasard, vous aurez au moins 1 / (d + 1) probabilité de choisir incorrectement.
David Eppstein
14

C'est une bonne question et j'y ai déjà pensé. Voici ce que nous avons trouvé:

Vous exécutez votre algorithme fois pour obtenir des sorties x 1 , , x nR d et vous savez ce avec une forte probabilité d' une fraction importante de x i chute s dans une bonne série G . Vous ne savez pas ce qu'est G , juste qu'il est convexe. La bonne nouvelle est qu'il existe un moyen d'obtenir un point en G sans plus d'informations à ce sujet. Appelons ce point f ( x 1 , , x n ) .nx1,,xnRdxiGGGf(x1,,xn)

Théorème. Pour tous les nombres naturels et d , il existe une fonction f : ( R d ) nR d telle que la suivante soit vérifiée. Soit x 1 . . . x nR d et soit G R d un ensemble convexe satisfaisant 1ndf:(Rd)nRdx1...xnRdGRdEnsuitef(x1,...,Xn)G. De plus,fest calculable en polynôme temporel ennd.
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

Notez que, pour , nous pouvons définir f pour être la médiane. Cela montre donc comment généraliser la médiane pour d > 1 .d=1fd>1

Avant de prouver ce résultat, notez qu'il est serré: Soit et soit x 1 , , x d les éléments de base standard et x d + 1 = 0 . Tout sous-ensemble de d des points est contenu dans un espace affine G de dimension d - 1 (qui est uniquement défini par ces points). Mais aucun point n'est contenu dans tous ces espaces affines. Il existe donc un certain G convexe qui contient n d / ( d +n=d+1x1,,xdxd+1=0dGd1G points mais ne contient pas f ( x 1 , , x n ) , quelle que soit la valeur qui prend.nd/(d+1)=df(x1,,xn)

Preuve. Nous utilisons le résultat suivant.

Théorème de Helly. Soit être des sous-ensembles convexes de R d . Supposons que l'intersection de tout d + 1 K i s ne soit pas vide. L'intersection de tous les K i est alors non vide.K1...KmRdd+1 KiKi

Cliquez ici pour une preuve du théorème de Helly.

Maintenant pour prouver notre théorème:

Soit est une limite supérieure sur le nombre de points non G . Considérons tous les demi-espaces fermés K 1 . . . K mR d contenant au moins n - k points avec leur frontière contenant un ensemble de points de rang maximal (il s'agit d'un nombre fini de demi-espaces car chaque K i est défini par d + 1 points sur sa frontière).k<n/(d+1)GK1...KmRdnkKid+1

Le complément de chaque contient au plus k points. Par une limite d'union, l'intersection tout d + 1 K i s contient au moins n - k ( d + 1 ) > 0 points. Selon le théorème de Helly (puisque les demi-espaces sont convexes), il y a un point à l'intersection de tous les K i s . Soit f une fonction qui calcule un point arbitraire dans l'intersection des K i s.Kikd+1 Kink(d+1)KisfKi

Tout ce qui reste est de montrer que l'intersection de la s est contenu dans G .KiG

Sans perte de généralité, est la coque convexe d'un sous-ensemble de points de rang complet. Autrement dit, nous pouvons remplacer G par la coque convexe des points qu'il contient. Si cela n'a pas un rang complet, nous pouvons simplement appliquer notre théorème en dimension inférieure.GG

Chaque face de définit un demi-espace, où G est l'intersection de ces demi-espaces. Chacun de ces demi-espaces contient G et contient donc au moins n - k points. La frontière de l'un de ces demi-espaces contient une face de G et contient donc un ensemble de points de rang maximal. Ainsi chacun de ces demi-espaces est un K i . Ainsi, l'intersection de tous les K i est contenue dans G , comme requis.GGGnkGKiKiG

Pour calculer , mettre en place un programme linéaire où les contraintes linéaires correspondent à K i s et une solution réalisable correspond à un point dans l'intersection de tous les K i s. QEDfKiKi

Malheureusement, ce résultat n'est pas très pratique dans le cadre de grande dimension. Une bonne question est de savoir si nous pouvons calculer plus efficacement:f

Problème ouvert. Démontrer le théorème ci-dessus avec la conclusion supplémentaire que peut être calculé en polynôme temporel en n et d . fnd

A part: On peut aussi changer le problème pour obtenir une solution efficace: si ont la propriété que strictement plus de la moitié d'entre eux se trouvent dans une boule B ( y , ε ) , alors on peut trouver un point z qui se trouve dans B ( y , 3 ε ) dans le polynôme temporel en n et d . En particulier, nous pouvons définir z = x i pour un arbitraire i tel que strictement plus de la moitié des points sont dans Bx1,,xnB(y,ε)zB(y,3ε)ndz=xii .B(z,2ε)

Thomas soutient Monica
la source
Je pense que vous avez essentiellement réinventé la profondeur de Tukey comme David Eppstein le décrit ci-dessous :)
Suresh Venkat
7

Il existe une notion de la médiane d'un ensemble de points de grande dimension et de normes générales connue sous différents noms. C'est juste le point qui minimise la somme des distances à tous les points de l'ensemble. Il est connu pour avoir une propriété d'amplification de confiance similaire à la médiane habituelle avec une petite augmentation multiplicative de la distance. Vous pouvez trouver les détails dans le théorème 3.1 de cet article: http://arxiv.org/pdf/1308.1334.pdf

Une bonne chose que cet article montre est que le facteur par lequel la distance augmente peut être rendu constant> 1 si vous pouvez amplifier à partir d'une confiance arbitrairement élevée (mais constante <1).

Edit: il y a un autre article récent sur le sujet par Hsu et Sabato http://arxiv.org/pdf/1307.1827v6.pdf Il analyse et applique principalement la procédure dans laquelle le point dans l'ensemble avec la plus petite distance médiane au reste des points est utilisé. Cette procédure peut être utilisée avec n'importe quelle métrique mais ne donne qu'un facteur d'approximation de 3.

Vitaly
la source
Sp
1
Pas vraiment. Le résultat est indiqué pour tous les espaces Banach. Pour tout corps qui est centré sur l'origine et symétrique autour de son centre, il existe une norme correspondante dans laquelle ce corps est la balle unitaire. Étant donné qu'aux fins de votre question, nous pouvons supposer sans perte de généralité que le corps convexe est centré sur l'origine, nous obtenons le résultat pour chaque corps convexe à symétrie centrale. Peut-être qu'avec un léger effort, le résultat peut être étendu aux corps convexes généraux.
Vitaly
1
Cependant, vous devez connaître la norme pour calculer le minimiseur pour cette norme - si vous savez seulement qu'il existe une norme mais pas ce qu'elle est, vous n'avez pas de chance.
David Eppstein
1
Tu as raison, David. Vous devez connaître la norme. (Cela se traduit par la connaissance du corps convexe jusqu'au centre et la mise à l'échelle).
Vitaly
X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0)(0,0.0001)