J'essaie de construire une preuve d'un problème sur lequel je travaille et l'une des hypothèses que je fais est que l'ensemble des points à partir desquels je suis échantillonné est dense sur tout l'espace. En pratique, j'utilise l'échantillonnage d'hypercube latin pour obtenir mes points sur tout l'espace d'échantillonnage. Ce que je voudrais savoir, c'est si les échantillons d'hypercube latins sont denses sur tout l'espace si vous laissez votre taille d'échantillon tendre à ? Si c'est le cas, une citation pour ce fait serait grandement appréciée.
sampling
asymptotics
latin-square
latin-hypercube
kjetil b halvorsen
la source
la source
Réponses:
Réponse courte: Oui, de manière probabiliste. Il est possible de montrer que, pour toute distance , tout sous- ensemble fini de l'espace d'échantillonnage et toute «tolérance» prescrite , pour des tailles d'échantillon convenablement grandes, nous pouvons être sûr que la probabilité qu'il y ait un point d'échantillon à une distance de est pour tout .{ x 1 , … , x m } δ > 0 ϵ x i > 1 - δ i = 1 , … , mϵ>0 {x1,…,xm} δ>0 ϵ xi >1−δ i=1,…,m
Réponse longue: Je n'ai connaissance d'aucune citation directement pertinente (mais voir ci-dessous). La plupart de la littérature sur l'échantillonnage des hypercubes latins (LHS) concerne ses propriétés de réduction de la variance. L'autre problème est, qu'est-ce que cela signifie de dire que la taille de l'échantillon a tendance à ? Pour un échantillonnage aléatoire IID simple, un échantillon de taille peut être obtenu à partir d'un échantillon de taille en ajoutant un autre échantillon indépendant. Pour le LHS, je ne pense pas que vous puissiez le faire car le nombre d'échantillons est spécifié à l'avance dans le cadre de la procédure. Il semble donc que vous devez prendre une succession d' indépendants échantillons de LHS de taille .n n - 1 1 , 2 , 3 , . . .∞ n n−1 1,2,3,...
Il doit également y avoir un moyen d'interpréter «dense» dans la limite, car la taille de l'échantillon a tendance à . La densité ne semble pas tenir de manière déterministe pour le LHS, par exemple en deux dimensions, vous pouvez choisir une séquence d'échantillons LHS de taille sorte qu'ils collent tous à la diagonale de . Une sorte de définition probabiliste semble donc nécessaire. Soit, pour tout , un échantillon de taille généré selon un mécanisme stochastique. Supposons que, pour différents , ces échantillons soient indépendants. Ensuite, pour définir la densité asymptotique, nous pourrions exiger que, pour chaque , et pour chaque∞ 1,2,3,... [0,1)2 n Xn=(Xn1,Xn2,...,Xnn) n n ϵ>0 x dans l'espace échantillon (supposé être ), nous avons ( comme ).[0,1)d P(min1≤k≤n∥Xnk−x∥≥ϵ)→0 n→∞
Si l'échantillon est obtenu en prenant échantillons indépendants de la distribution ('échantillonnage aléatoire IID') alors où est le volume de la boule dimensionnelle de rayon . Il est donc certain que l'échantillonnage aléatoire IID est asymptotiquement dense.Xn n U([0,1)d)
Considérons maintenant le cas où les échantillons sont obtenus par LHS. Le théorème 10.1 dans ces notes stipule que les membres de l'échantillon sont tous distribués comme . Cependant, les permutations utilisées dans la définition de LHS (bien qu'indépendantes pour différentes dimensions) induisent une certaine dépendance entre les membres de l'échantillon ( ), il est donc moins évident que la propriété de densité asymptotique est vraie.Xn Xn U([0,1)d) Xnk,k≤n
Fixez et . Définissez . Nous voulons montrer que . Pour ce faire, nous pouvons utiliser la proposition 10.3 dans ces notes , qui est une sorte de théorème central limite pour l'échantillonnage en hypercube latin. Définissez par si est dans la boule de rayon autour de , sinon. Alors la proposition 10.3 nous dit que où etϵ>0 x∈[0,1)d Pn=P(min1≤k≤n∥Xnk−x∥≥ϵ) Pn→0 f:[0,1]d→R f(z)=1 z ϵ x f(z)=0 Yn:=n−−√(μ^LHS−μ)→dN(0,Σ) μ=∫[0,1]df(z)dz μ^LHS=1n∑ni=1f(Xni) .
Prenez . Finalement, pour assez grand , nous aurons . Donc, finalement, nous aurons . Par conséquent , où est le cdf normal standard. Puisque était arbitraire, il s'ensuit que comme requis.L>0 n −n−−√μ<−L Pn=P(Yn=−n−−√μ)≤P(Yn<−L) lim supPn≤lim supP(Yn<−L)=Φ(−LΣ√) Φ L Pn→0
Cela prouve la densité asymptotique (telle que définie ci-dessus) à la fois pour l'échantillonnage aléatoire iid et le LHS. De manière informelle, cela signifie que compte tenu de tout et de tout dans l'espace d'échantillonnage, la probabilité que l'échantillon atteigne de peut être rendue aussi proche de 1 que vous le souhaitez en choisissant la taille de l'échantillon suffisamment grande. Il est facile d'étendre le concept de densité asymptotique afin de l'appliquer à des sous-ensembles finis de l'espace d'échantillonnage - en appliquant ce que nous savons déjà à chaque point du sous-ensemble fini. Plus formellement, cela signifie que nous pouvons montrer: pour tout et tout sous-ensemble fini de l'espace échantillon,ϵ x ϵ x ϵ>0 {x1,...,xm} min1≤j≤mP(min1≤k≤n∥Xnk−xj∥<ϵ)→1 (comme ).n→∞
la source
Je ne sais pas si c'est tout à fait ce que vous voulez, mais voilà.
Vous échantillonnez LHS points de , disons. Nous dirons de manière très informelle que, pour tout , le nombre attendu de (hyper) cuboïdes vides de taille dans chaque dimension va à zéro comme .n [0,1)d ϵ>0 ϵ n→∞
Soit sorte que si nous divisons uniformément en minuscules cuboïdes - microcuboïdes , disons - de largeur alors chaque largeur- cuboid contient au moins un microcuboïde. Donc, si nous pouvons montrer que le nombre attendu de microcuboïdes non échantillonnés est nul, dans la limite , alors nous avons terminé. (Notez que nos microcuboïdes sont disposés sur une grille régulière, mais les -cuboïdes peuvent être dans n'importe quelle position.)m=⌈2/ϵ⌉ [0,1)d md 1/m ϵ n→∞ ϵ
Le risque de manquer complètement un microcuboïde donné avec le premier point d'échantillonnage est de , indépendant de , car le premier ensemble de coordonnées d'échantillon (premier point d'échantillonnage) peut être choisi librement. Étant donné que les premiers points d'échantillonnage ont tous raté ce microcuboïde, les points d'échantillonnage suivants auront plus de mal à manquer (en moyenne), de sorte que la probabilité que tous les points manquent est inférieur à .1−m−d n d n (1−m−d)n
Il y a microcuboïdes dans , donc le nombre attendu qui est manqué est limité au-dessus par - parce que les attentes s'ajoutent - qui est zéro dans la limite comme .md [0,1)d md(1−m−d)n n→∞
Mises à jour ...
(1) Voici une image montrant comment, pour un donné , vous pouvez choisir assez grand pour qu'une grille de "microcuboïdes" (carrés dans cette illustration en 2 dimensions) soit garantie d'avoir au moins un microcuboïde à l'intérieur toute région de taille . J'ai montré deux régions "choisies au hasard" et j'ai coloré en violet les deux microcuboïdes qu'elles contiennent.ϵ m m×m ϵ×ϵ ϵ×ϵ
(2) Considérons tout microcuboïde particulier. Il a un volume , une fraction de tout l'espace. Le premier échantillon LHS - qui est le seul choisi entièrement librement - le manquera donc avec une probabilité de . Le seul fait important est qu'il s'agit d'une valeur fixe (nous laisserons , mais gardons constant) qui est inférieure à .(1/m)d m−d 1−m−d n→∞ m 1
(3) Pensez maintenant au nombre de points d'échantillonnage . J'ai illustré sur la photo. LHS fonctionne dans un maillage fin de ces "nanocuboïdes" de taille super minuscules (si vous voulez), pas le plus grand "microcuboïdes" de taille, mais en réalité ce n'est pas important dans la preuve. La preuve n'a besoin que de l'énoncé légèrement agitant la main selon lequel il devient de plus en plus difficile, en moyenne, de continuer à manquer un microcuboïde donné lorsque vous jetez plus de points. Il s'agissait donc d'une probabilité de pour le premier point LHS manquant, mais inférieure à pour tous les manquants: c'est zéro dans la limite commen>m n=6m n−1×n−1 m−1×m−1 1−m−d (1−m−d)n n n→∞ .
(4) Tous ces epsilons sont parfaits pour une preuve mais ne sont pas bons pour votre intuition. Voici donc quelques images illustrant et points d'échantillonnage, avec la plus grande zone rectangulaire vide mise en évidence. (La grille est la grille d'échantillonnage du LHS - les "nanocuboïdes" mentionnés plus haut.) Il devrait être "évident" (dans un certain sens intuitif vague) que la plus grande zone vide se rétrécira à une taille arbitrairement petite comme le nombre de points d'échantillonnage .n=10 n=50 n→∞
la source