Je me demande s'il y a toutes sortes de distributions standard sur des sous - ensembles d'entiers . De manière équivalente, nous pourrions exprimer cela comme une distribution sur un vecteur de longueur de résultats binaires, par exemple si alors correspond au vecteur .
Idéalement, ce que je recherche, c'est une distribution , provenant d'une famille indexée par un paramètre de dimension finie , qui répartirait sa masse de telle manière que deux vecteurs binaires et auront une probabilité similaire si ils sont "proches", c'est-à-dire et ont des probabilités similaires. Vraiment, ce que j'espère faire, c'est mettre un a priori sur telle sorte que si je sais que est assez grand, alors est probablement grand par rapport à des vecteurs éloignés de .
Réponses:
Vous pouvez privilégier les familles d'emplacement basées sur la distance de Hamming , en raison de leur richesse, de leur flexibilité et de leur facilité de calcul.
Notation et définitions
Rappelons que dans un module libre de dimension finie à base ( e 1 , e 2 , … , e J ) , la distance de Hamming δ H entre deux vecteurs v = v 1 e 1 + ⋯ + v J e J et w = w 1 e 1 + ⋯ + w J e J est le nombre de places i où v iV (e1,e2,…,eJ) δH v=v1e1+⋯+vJeJ w=w1e1+⋯+wJeJ i .vi≠wi
Étant donné n'importe quelle origine , la distance de Hamming partitionne V en sphères S i ( v 0 ) , i = 0 , 1 , … , J , où S i ( v 0 ) = { w ∈ V | δ H ( w , v 0 ) = i } . Lorsque l'anneau de masse a n éléments, V av0∈V V Si(v0) i=0,1,…,J Si(v0)={w∈V | δH(w,v0)=i} n V éléments et S i ( v ) ontelements. (Cela découle immédiatement de l'observation que les éléments dediffèrent deà exactementendroits - dont il existe despossibilités- et qu'il y a, indépendamment,choix de valeurs pour chaque lieu.)nJ Si(v) Si(v)vi ( J(Ji)(n−1)i Si(v) v i n-1(Ji) n−1
La traduction affine en agit naturellement sur ses distributions pour donner des familles de localisations. Plus précisément, lorsque est une distribution sur (ce qui signifie un peu plus que , pour tous , et ) et est n'importe quel élément de , alors est également une distribution oùf V f : V → [ 0 , 1 ] f (V f V f:V→[0,1] v ∈ V ∑ v ∈ V f ( v ) = 1 w V f ( w )f(v)≥0 v∈V ∑v∈Vf(v)=1 w V f(w)
pour tous . Une situation familiale des distributions est invariante par cette action: implique pour tous .Ω f ∈ Ω f ( v ) ∈ Ω v ∈ Vv∈V Ω f∈Ω f(v)∈Ω v∈V
Construction
Cela nous permet de définir des familles de distributions potentiellement intéressantes et utiles en spécifiant leurs formes dans un vecteur fixe , que pour plus de commodité je considérerai comme , et traduire ces "distributions génératrices" sous l'action de pour obtenir la famille complète . Pour obtenir la propriété souhaitée que devrait avoir des valeurs comparables aux points voisins, il suffit d'exiger cette propriété de toutes les distributions génératrices.0 = ( 0 , 0 , … , 0 ) V Ω fv 0=(0,0,…,0) V Ω f
Pour voir comment cela fonctionne, construisons la famille d'emplacement de toutes les distributions qui diminuent avec l'augmentation de la distance. Étant donné que seules les distances de Hamming sont possibles, considérez toute séquence décroissante de nombres réels non négatifs = . Ensemblea 0 ≠ a 0 ≥ a 1 ≥ ⋯ ≥ a J ≥ 0J+1 a 0≠a0≥a1≥⋯≥aJ≥0
et définir la fonction parfa:V→[0,1]
Puis, comme il est facile de vérifier, est une distribution sur . De plus, si et seulement si est un multiple positif de (comme vecteurs dans ). Ainsi, si nous le souhaitons, nous pouvons standardiser à . V f a = ffa V a′aRJ+1aa0=1fa=fa′ a′ a RJ+1 a a0=1
En conséquence, cette construction donne un paramétrage explicite de toutes ces distributions invariantes de localisation qui diminuent avec la distance de Hamming: toute distribution de ce type est sous la forme pour une séquence et un vecteur . a=1≥a1≥a2≥⋯≥aJ≥0v∈Vf(v)a a=1≥a1≥a2≥⋯≥aJ≥0 v∈V
Ce paramétrage peut permettre une spécification pratique des a priori: factorisez-les en un a priori sur l'emplacement et un a priori sur la forme . (Bien sûr, on pourrait envisager un ensemble plus important de prieurs où l'emplacement et la forme ne sont pas indépendants, mais ce serait une entreprise plus compliquée.)av a
Génération de valeurs aléatoires
Une façon d'échantillonner à partir de est par étapes en le factorisant dans une distribution sur le rayon sphérique et une autre distribution conditionnelle à chaque sphère:f(v)a
Dessinez un indice partir de la distribution discrète sur donné par les probabilités , où est défini comme précédemment .{ 0 , 1 , … , J } ( Ji {0,1,…,J} A(Ji)(n−1)iai/A A
L'index correspond à l'ensemble des vecteurs différents de à exactement endroits. Par conséquent, sélectionnez ceux que place parmi les sous-ensembles possibles, en donnant à chaque probabilité égale. (Ceci est juste un échantillon de Subscripts sur sans remplacement.) Que ce sous - ensemble de lieux écrire .v i i ( Ji v i i iJiI(Ji) i J i I
Dessinez un élément en sélectionnant indépendamment une valeur uniformément dans l'ensemble de scalaires non égal à pour tout et sinon définissez . De manière équivalente, créez un vecteur en sélectionnant uniformément au hasard parmi les scalaires non nuls lorsque et en définissant autrement . Définissez .w j v j j ∈ I w j = v j u u j j ∈w wj vj j∈I wj=vj u uj u j = 0 w = v + uj∈I uj=0 w=v+u
L'étape 3 n'est pas nécessaire dans le cas binaire.
Exemple
Voici une
R
implémentation à illustrer.À titre d'exemple de son utilisation:
Cela a pris seconde pour dessiner éléments iid de la distribution où , (le cas binaire), et diminue de façon exponentielle.10 4 f ( v ) a J = 10 n = 2 v = (0.2 104 f(v)a J=10 n=2 a = ( 2 11 , 2 10 , … , 2 1 )v=(1,1,…,1) a=(211,210,…,21)
(Cet algorithme ne nécessite pas que diminue; ainsi, il générera des variations aléatoires à partir de n'importe quelle famille d'emplacement, pas seulement celles unimodales.)a
la source
Un échantillon d'un processus ponctuel k-déterminant modélise une distribution sur des sous-ensembles qui encourage la diversité, de sorte que des éléments similaires sont moins susceptibles de se produire ensemble dans l'échantillon. Reportez-vous à l'échantillonnage du processus ponctuel déterminant K par Alex Kulesza, Ben Taskar.
la source