Étant donné nombres, où la valeur de chaque nombre est différente, notée , et la probabilité de sélectionner chaque nombre est , respectivement.
Maintenant, si je sélectionne nombres basés sur les probabilités données, où , quelle est l'attente de la somme de ces nombres? Notez que la sélection est sans remplacement, de sorte que les numéros ne peuvent pas impliquer de numéros en double. Je comprends que si la sélection est avec remplacement, l'attente de la somme des nombres est , où
De plus, qu'en est-il de l'attente de la variance de ces nombres ?
Je suis un étudiant en doctorat CS qui travaille sur un problème de big data, et je n'ai aucune expérience en statistiques. Je m'attends à ce que quelqu'un puisse me donner une formule comme réponse. Cependant, si la réponse est trop compliquée pour être décrite par une formule ou si un calcul intensif doit être impliqué, une réponse approximative est totalement acceptable.
Vous pouvez supposer que ici est assez grand et que la probabilité peut varier considérablement. En pratique, les valeurs de ces probabilités proviennent d'un journal de requêtes, qui enregistre une série de requêtes d'agrégation. Le fait est que la fréquence de chaque nombre impliqué dans les requêtes peut être assez asymétrique, c'est-à-dire que certains sont rarement interrogés, tandis que d'autres le sont très fréquemment. Vous pouvez supposer que la distribution de probabilité est une distribution normale, une distribution zipf ou toute autre alternative raisonnable.
La distribution de valeurs n'est qu'un sous-ensemble contigu de toute distribution possible. En d'autres termes, si vous avez un histogramme qui représente une certaine distribution, tous les nombres impliqués dans ce problème sont les nombres tous dans un seul compartiment.
En termes de valeur de K, vous pouvez supposer qu'il est toujours inférieur au nombre d'éléments fréquemment interrogés.
la source
Réponses:
C'est probablement dans la nature d'une réponse qui, bien que précise, n'est probablement pas très utile. Horvitz et Thompson (1952) fournissent des résultats qui couvrent cette situation en général. Ces résultats sont donnés en termes d'expressions combinatoires auxquelles on peut s'attendre.
Pour rester cohérent avec leur notation, et aussi pour mieux correspondre à une notation plus largement utilisée, permettez-moi de redéfinir certaines quantités. Soit le nombre d'éléments dans la population et la taille de l'échantillon.N n
Soit , , représentent les éléments de la population, avec des valeurs données , et des probabilités de sélection . Pour un échantillon donné de taille , laissez les valeurs observées dans l'échantillon être .ui i=1,...,N N Vi i=1,...,N p1,...,pN n v1,...,vn
Ce que l'on souhaite, c'est la moyenne et la variance du total de l'échantillon
Comme mentionné dans les commentaires, la probabilité de sélectionner un échantillon particulier dessiné dans cet ordre est où la probabilité initiale de dessiner est donnée par , la deuxième probabilité de dessiner est conditionnelle à la suppression de de la population, etc. Ainsi, chaque unité suivante tirée entraîne une nouvelle distribution de probabilité pour l'unité suivante (d'où le choix de différentes lettres indicatives, car chacune représente une distribution différente.)Pr ( s ) = p i 1 p j 2 ⋯ p t n , p i 1 u i p i p j 2 u j u is={ui,uj,...,ut}
Il y a échantillons de taille contenant sur l'ensemble de la population. Notez que cela prend en compte lepermutations de l'échantillon.
Soit un échantillon spécifique de taille qui inclut . Ensuite, la probabilité de sélectionner l'élément est donnée par où la somme est supérieure à l'ensemble de taille de tous les échantillons possibles de taille contenant . (J'ai légèrement changé la notation du papier car cela m'a semblé déroutant.)s(i)n n ui ui
De même, définissez comme le nombre d'échantillons contenant à la fois et . Ensuite, nous pouvons définir la probabilité d'un échantillon contenant les deux comme où la sommation est sur l'ensemble de la taille de tous les échantillons possibles de taille qui contiennent et .
La valeur attendue est alors dérivée comme
Bien que la variance ne soit pas dérivée explicitement dans l'article, elle pourrait être obtenue à partir d'expectations du ème moment et les produits croisésq
En d'autres termes, il semble que l'on aurait besoin de parcourir tous les sous-ensembles possibles pour effectuer ces calculs. Peut-être que cela pourrait être fait pour des valeurs plus petites de , cependant.n
Horvitz, DG et Thompson, DJ (1952) Une généralisation de l'échantillonnage sans remplacement à partir d'un univers fini. Journal de l'American Statistical Association 47 (260): 663-685.
la source