Attente de la somme des nombres K sans remplacement

Étant donné nombres, où la valeur de chaque nombre est différente, notée , et la probabilité de sélectionner chaque nombre est , respectivement. $n$ $v_1, v_2, ..., v_n$ $p_1, p_2, ..., p_n$

Maintenant, si je sélectionne nombres basés sur les probabilités données, où , quelle est l'attente de la somme de ces nombres? Notez que la sélection est sans remplacement, de sorte que les numéros ne peuvent pas impliquer de numéros en double. Je comprends que si la sélection est avec remplacement, l'attente de la somme des nombres est , où $K$ $K \leq n$ $K$ $K$ $K$ $K \times E(V)$

E (V) = v_{1} \times p_{1} + v_{2} \times p_{2} + . . . + v_{n} \times p_{n} .

$E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n.$

De plus, qu'en est-il de l'attente de la variance de ces nombres ? $K$

Je suis un étudiant en doctorat CS qui travaille sur un problème de big data, et je n'ai aucune expérience en statistiques. Je m'attends à ce que quelqu'un puisse me donner une formule comme réponse. Cependant, si la réponse est trop compliquée pour être décrite par une formule ou si un calcul intensif doit être impliqué, une réponse approximative est totalement acceptable.

Vous pouvez supposer que ici est assez grand et que la probabilité peut varier considérablement. En pratique, les valeurs de ces probabilités proviennent d'un journal de requêtes, qui enregistre une série de requêtes d'agrégation. Le fait est que la fréquence de chaque nombre impliqué dans les requêtes peut être assez asymétrique, c'est-à-dire que certains sont rarement interrogés, tandis que d'autres le sont très fréquemment. Vous pouvez supposer que la distribution de probabilité est une distribution normale, une distribution zipf ou toute autre alternative raisonnable. $n$

La distribution de valeurs n'est qu'un sous-ensemble contigu de toute distribution possible. En d'autres termes, si vous avez un histogramme qui représente une certaine distribution, tous les nombres impliqués dans ce problème sont les nombres tous dans un seul compartiment.

En termes de valeur de K, vous pouvez supposer qu'il est toujours inférieur au nombre d'éléments fréquemment interrogés.

probability SciPioneer
la source

L'espérance de la variance de la somme sera différente sans remplacement; vous aurez besoin d'un facteur de correction de population finie s'il n'y a pas de remplacement. (Pour voir cela intuitivement, notez que si K = n, la variance de la somme est nulle, car ce sera toujours le même nombre; de sorte que K s'approche de n, la variance de la somme sera plus faible.)

zbicyclist

Cette question pourrait être plus délicate qu'elle n'y paraît. Considérons le cas et . La somme attendue de deux valeurs tirées avec remplacement est qui est bien sûr le double de la somme attendue d'une valeur; mais la somme attendue de deux valeurs tirées sans remplacement est évidemment sauf lorsque .

n = 2

$n=2$

(v_{1}, v_{2}) = (0, 1)

$(v_1,v_2)=(0,1)$

2 p_{2}

$2p_2$

v_{1} + v_{2} = 1 \neq 2 p_{2}

$v_1+v_2=1\ne 2p_2$

p_{1} = p_{2} = 1 / 2

$p_1=p_2=1/2$

whuber

@zbicyclist Je n'ai peut-être pas énoncé clairement le problème. Dans mon scénario, si K = N, alors la variance de ces nombres K sera la variance de la population générale plutôt que 0.

SciPioneer

(1) Cela ne ressemble pas à une question d' autoformation pour moi: cela ressemble à un véritable problème appliqué en probabilité. (2) Quelle taille pourrait être ? Les solutions exactes semblent impraticables, sauf lorsque tous les sous-ensembles peuvent être énumérés. (3) Si pourrait être bien supérieur à une , excluant un dénombrement rapide, que pouvez-vous dire du ? Par exemple, pourraient-ils varier ou seront-ils tous assez proches de ? Cela pourrait éclairer les efforts pour trouver des réponses approximatives.

n

$n$

n

$n$

20

$20$

p_{i}

$p_i$

1 / n

$1/n$

whuber

Merci pour les modifications. Plus vous pouvez nous en dire sur , , le et le , mieux c'est. Par exemple, si formules d'échantillonnage avec remplacement devraient être de bonnes approximations (car très peu de valeurs, le cas échéant, seraient sélectionnées plus d'une fois). Je pense que les cas les plus difficiles sont ceux où il existe un large éventail de valeurs de sorte que vous ne pouvez pas simplement remplacer la plupart d'entre elles par des zéros et pourtant par pour un nombre appréciable de - et .

N

$N$

K

$K$

v_{i}

$v_i$

p_{i}

$p_i$

K max (p_{i}) ≪ 1

$K\max(p_i)\ll 1$

p_{i}

$p_i$

p_{i} > 1 / K

$p_i\gt 1/K$

i

$i$

K \approx N / 2

$K\approx N/2$

whuber

Réponses:

C'est probablement dans la nature d'une réponse qui, bien que précise, n'est probablement pas très utile. Horvitz et Thompson (1952) fournissent des résultats qui couvrent cette situation en général. Ces résultats sont donnés en termes d'expressions combinatoires auxquelles on peut s'attendre.

Pour rester cohérent avec leur notation, et aussi pour mieux correspondre à une notation plus largement utilisée, permettez-moi de redéfinir certaines quantités. Soit le nombre d'éléments dans la population et la taille de l'échantillon. $N$ $n$

Soit , , représentent les éléments de la population, avec des valeurs données , et des probabilités de sélection . Pour un échantillon donné de taille , laissez les valeurs observées dans l'échantillon être . $u_i$ $i=1,...,N$ $N$ $V_i$ $i=1,...,N$ $p_1,...,p_N$ $n$ $v_1,..., v_n$

Ce que l'on souhaite, c'est la moyenne et la variance du total de l'échantillon

\sum_{i = 1}^{n} v_{i} .

$\sum_{i=1}^n v_i.$

Comme mentionné dans les commentaires, la probabilité de sélectionner un échantillon particulier dessiné dans cet ordre est où la probabilité initiale de dessiner est donnée par , la deuxième probabilité de dessiner est conditionnelle à la suppression de de la population, etc. Ainsi, chaque unité suivante tirée entraîne une nouvelle distribution de probabilité pour l'unité suivante (d'où le choix de différentes lettres indicatives, car chacune représente une distribution différente.) $s = \{u_i, u_j, ..., u_t\}$

Pr (s) = p_{i_{1}} p_{j_{2}} \dots p_{t_{n}},

$\textrm{Pr}(s) = p_{i_1}p_{j_2}\cdots p_{t_n},$

p_{i_{1}}

$p_{i_1}$

u_{i}

$u_i$

p_{i}

$p_i$

p_{j_{2}}

$p_{j_2}$

u_{j}

$u_j$

u_{i}

$u_i$

Il y a échantillons de taille contenant sur l'ensemble de la population. Notez que cela prend en compte lepermutations de l'échantillon.

S^{(i)} = n! (\binom{N - 1}{n - 1})

$S^{(i)} = n! \binom{N-1}{n-1}$

n

$n$

u_{i}

$u_i$

n!

$n!$

Soit un échantillon spécifique de taille qui inclut . Ensuite, la probabilité de sélectionner l'élément est donnée par où la somme est supérieure à l'ensemble de taille de tous les échantillons possibles de taille contenant . (J'ai légèrement changé la notation du papier car cela m'a semblé déroutant.) $s_n^{(i)}$ $n$ $u_i$ $u_i$

P (u_{i}) = \sum Pr (s_{n}^{(i)}),

$P(u_i) = \sum \textrm{Pr}(s_n^{(i)}),$

S^{(i)}

$S^{(i)}$

s_{n}^{(i)}

$s_n^{(i)}$

n

$n$

u_{i}

$u_i$

De même, définissez comme le nombre d'échantillons contenant à la fois et . Ensuite, nous pouvons définir la probabilité d'un échantillon contenant les deux comme où la sommation est sur l'ensemble de la taille de tous les échantillons possibles de taille qui contiennent et .

S^{(i j)} = n! (\binom{N - 2}{n - 2})

$S^{(ij)} = n! \binom{N-2}{n-2}$

u_{i}

$u_i$

u_{j}

$u_j$

P (u_{i} u_{j}) = \sum Pr (s_{n}^{(i j)}),

$\textrm{P}(u_i u_j) = \sum \textrm{Pr}(s_n^{(ij)}),$

S^{(i j)}

$S^{(ij)}$

s_{n}^{(i j)}

$s_n^{(ij)}$

n

$n$

u_{i}

$u_i$

u_{j}

$u_j$

La valeur attendue est alors dérivée comme

E (\sum_{i = 1}^{n} v_{i}) = \sum_{i = 1}^{N} P (u_{i}) V_{i} .

$E \left( \sum_{i=1}^n v_i \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i.$

Bien que la variance ne soit pas dérivée explicitement dans l'article, elle pourrait être obtenue à partir d'expectations du ème moment et les produits croisés $q$

E (\sum_{i = 1}^{n} v_{i}^{q}) = \sum_{i = 1}^{N} P (u_{i}) V_{i}^{q}

$E \left( \sum_{i=1}^n v_i^q \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i^q$

E (\sum_{i \neq j}^{n} v_{i} v_{j}) = \sum_{i \neq j} P (u_{i} u_{j}) V_{i} V_{j} .

$E \left( \sum_{i \ne j}^n v_iv_j \right) = \sum_{i \ne j} \textrm{P}(u_i u_j) V_i V_j.$

En d'autres termes, il semble que l'on aurait besoin de parcourir tous les sous-ensembles possibles pour effectuer ces calculs. Peut-être que cela pourrait être fait pour des valeurs plus petites de , cependant. $n$

Horvitz, DG et Thompson, DJ (1952) Une généralisation de l'échantillonnage sans remplacement à partir d'un univers fini. Journal de l'American Statistical Association 47 (260): 663-685.

jvbraun
la source