Distributions sur des listes triées

10

Disons que nous avons une liste d'articles commandée

[a, b, c, ... x, y, z, ...]

Je recherche une famille de distributions avec support sur la liste ci-dessus régie par un paramètre alpha afin que:

  • Pour alpha = 0, il affecte la probabilité 1 au premier élément, a ci-dessus et 0 au reste. Autrement dit, si nous échantillonnons à partir de cette liste, avec remplacement, nous obtenons toujours a.
  • À mesure que l'alpha augmente, nous attribuons des probabilités de plus en plus élevées au reste de la liste, en respectant l'ordre de la liste, après une décroissance exponentielle.
  • Lorsque alpha = 1, nous attribuons une probabilité égale à tous les éléments de la liste, donc l'échantillonnage de la liste revient à ignorer son ordre.

Ceci est très similaire à la distribution géométrique, mais il existe quelques différences notables:

  • La distribution de distribution géométrique est définie sur tous les nombres naturels. Dans mon cas ci-dessus, la liste a une taille fixe.
  • La distribution géométrique n'est pas définie pour alpha = 0.
Amelio Vazquez-Reina
la source
1
Vous semblez décrire une famille de distributions géométriques tronquées. Cependant, il existe une infinité de familles qui se comportent qualitativement comme votre description. Plus précisément, alors, ce serait d'expliquer pourquoi vous aimeriez utiliser une telle famille.
whuber
Merci @whuber Oui, je comprends qu'il existe une infinité de distributions qui correspondent à cette description. Y en a-t-il qui vous viennent à l'esprit? J'ai un système qui sélectionne actuellement le premier élément de cette liste (représentant les scores), mais je veux randomiser ce choix (et paramétrer cette randomisation). Je ne recherche pas un type particulier de "désintégration" basé sur l'alpha. Tant que alpha = 0 ne représente aucune randomisation, c'est-à-dire choisir le premier élément, 1 représente "choisir n'importe quel élément", et les alphas entre 0 et 1 représentent "quelque chose entre les deux" ces deux alphas, ce serait suffisant.
Amelio Vazquez-Reina

Réponses:

11

Supposons que , le rang de l'élément de liste , a une valeur dans pour une liste avec éléments (les liens peuvent être rompus au hasard). Ensuite, nous pourrions définir la probabilité de sélectionner pour être: i { 0 , 1 , , n - 1 } n irii{0,1,,n1}nje

pje=αrjek=1nαrk

Il s'agit essentiellement d'une distribution géométrique tronquée correctement normalisée, et elle est également liée à la fonction Softmax . Dans le cas particulier de , utilisez la convention . Notez que le dénominateur peut toujours être écrit dans une simple expression de forme fermée. Pour il prend la valeur , et pour il prend la valeur .0 0 = 1 α < 1 1 - α nα=000=1α<1 α=1n1-αn1-αα=1n

Avec , il est clair que cela affecte simplement une probabilité égale à chaque élément. Comme , cela approche en donnant toute la masse de probabilité au premier élément.α 0α=1α0

Dans une liste de 10 éléments, la diminution à peu près exponentielle que vous avez demandée est claire avec :α=0,5

p00,5005p10,2502p20,1251p30,0626p40,0313p50,0156p60,0078p70,0039p80,0020p90,0010

Le graphique suivant montre comment la probabilité de sélection du premier élément change en fonction de , en utilisant une liste de longueur 10.α

entrez la description de l'image ici

josliber
la source
Agréable. C'est beaucoup plus intelligent que je ne pourrais jamais espérer l'être.
Matthew Drury
@Matthew Ce sont les distributions géométriques tronquées auxquelles j'ai fait référence plus tôt.
whuber
4

Je vais essayer de construire un exemple à partir des premiers principes.

Prenons trois distributions comme blocs de construction:

  • P est la distribution attribuant la probabilité un au premier élément de la liste, zéro à tous les autres.
  • E est la distribution affectant la probabilité au premier élément de la liste, au suivant, et ainsi de suite. Puisque la liste est finie, celles-ci ne totaliseront pas , mais nous pouvons normaliser pour obtenir une distribution de probabilité.12141
  • U est la distribution uniforme sur la liste.

Maintenant, nous voulons prendre une famille à un paramètre de combinaisons convexes positives de ces distributions

α(t)P+β(t)E+γ(t)U

où pour tous les , avec la propriété supplémentaire que et . α(t)+β(t)+γ(t)=1t[0,1]α(0)=1γ(1)=1

Géométriquement, nous voulons tracer une courbe dans le triangle équilatéral s'étendant entre les points qui commence au premier virage et se termine et au dernier. De plus, comme nous voulons que la distribution soit "exponentielle" au milieu, nous aimerions que la courbe occupe l'intérieur du triangle aux temps .(α(t),β(t),γ(t))(1,0,0),(0,1,0),(0,0,1)t(0,1)

Voici une option pour la courbe:

(1-t(1-t))(1-t,0,t)+t(1-t)(13,13,13)

J'ai construit ce travail à l'envers à partir des propriétés que nous aimerions. La courbe longe le bord du triangle entre les sommets de début et de fin. Le reste de la formule n'est qu'une somme convexe de cette courbe de bord et du point unique , qui pousse la courbe le long du bord vers l'intérieur aux instants .( 1(1-t,0,t)t(0,1)(13,13,13)t(0,1)

Matthew Drury
la source