Supposons que j'ai une urne contenant N couleurs de boules différentes et que chaque couleur différente puisse apparaître un nombre différent de fois (s'il y a 10 boules rouges, il n'est pas nécessaire qu'il y ait également 10 boules bleues). Si nous connaissons le contenu exact de l'urne avant de dessiner, nous pouvons former une distribution de probabilité discrète qui nous indique la probabilité de dessiner chaque couleur de boule. Ce que je me demande, c'est comment la distribution change après avoir tiré k boules sans les remplacer de l'urne en moyenne. Je comprends que lorsque nous tirons de l'urne, nous pouvons mettre à jour la distribution en sachant ce qui a été retiré, mais ce que je veux savoir, c'est ce que nous attendons de la forme de la distribution après avoir retiré k balles. La distribution change-t-elle en moyenne ou reste-t-elle la même? Si elle ne reste pas la même, pouvons-nous écrire une formule pour ce à quoi nous nous attendons à ce que la nouvelle distribution ressemble en moyenne après avoir fait k tirages?
la source
Réponses:
"Calcul direct": Soit boules de couleurs dans l'urne. Concentrons-nous sur la probabilité de dessiner une couleur particulière, disons le blanc , sur le deuxième tirage. Soit le nombre de boules blanches . Soit la couleur de la balle obtenue au ème tirage.m n w X i in m nw Xi i
Bien sûr, ce même argument s'applique à toutes les couleurs du deuxième tirage. Nous pouvons appliquer le même type d'argument de manière récursive lorsque nous considérons des tirages ultérieurs.
[On pourrait bien sûr effectuer un calcul encore plus direct. Considérez les premiers tirages comme consistant en boules blanches et boules non blanches (avec probabilité donnée par la distribution hypergéométrique), et effectuez le calcul correspondant au simple ci-dessus mais pour le tirage à l'étape ; on obtient une simplification et une annulation similaires, mais ce n'est pas particulièrement instructif à réaliser.]i k - i k + 1k i k−i k+1
Un argument plus court: pensez à étiqueter les boules au hasard avec les nombres , puis à les dessiner dans l'ordre étiqueté. La question devient maintenant "La probabilité qu'une étiquette donnée, , soit placée sur une boule blanche soit la même que la probabilité que l'étiquette soit placée sur une boule blanche?"k 11,2,...,n k 1
Nous voyons maintenant que la réponse doit être "oui" par symétrie des étiquettes. De même, par symétrie des couleurs de balle, peu importe que nous disions "blanc", donc l'argument selon lequel l'étiquette et l'étiquette ont la même probabilité s'applique à n'importe quelle couleur. Par conséquent, la distribution au ème tirage est la même que pour le premier tirage, tant que nous n'avons pas d'informations supplémentaires sur les tirages précédents (c'est-à-dire tant que les boules tirées précédemment ne sont pas vues).1 kk 1 k
la source
La seule raison pour laquelle il n'est pas parfaitement évident que la distribution reste inchangée (à condition qu'il reste au moins une balle) est qu'il y a trop d'informations. Supprimons le matériel distrayant.
Ignorez un instant la couleur de chaque balle. Concentrez-vous sur une balle. Supposons que balles sont sur le point d'être retirées au hasard (et non observées), puis une st balle sera tirée et observée. Cela ne fait aucune différence dans l' ordre dans lequel la sélection se produit, vous pouvez donc aussi bien observer la toute première balle tirée (puis retirer une autre balles si vous insistez). La distribution n'a évidemment pas changé, car elle ne sera pas affectée par le retrait des autres balles.k + 1 k kk k+1 k k
Cet argument - bien que parfaitement valable - pourrait inquiéter certaines personnes. L'analyse suivante pourrait être acceptée comme plus rigoureuse, car elle ne nous demande pas d'ignorer l'ordre de sélection.
Continuez à vous concentrer sur votre balle. Il aura une certaine probabilité d'être sélectionné comme er ballon. Bien que soit facile à calculer, nous n'avons pas besoin de connaître sa valeur: tout ce qui compte, c'est que ce soit la même valeur pour chaque boule (car toutes les boules sont équivalentes) et qu'elle soit non nulle. Mais s'il était nul, aucune balle n'aurait de probabilité d'être sélectionnée: donc tant qu'il reste au moins une balle, . k + 1 p k p k ≠ 0pk k+1 pk pk≠0
Faites à nouveau attention aux couleurs. Par définition, la possibilité qu'une couleur particulière sera choisi (après boules sont retirées au hasard) est la somme des chances de tous l'original boules -colored divisé par la somme des chances de toutes les boules originales. Lorsqu'il y a à l'origine boules de couleur et boules au total, cette valeur estk C k C C nC k C kC C n
Lorsque cela ne dépend pas de , QED .k<n k
la source
Soit la distribution du tirage d'une seule balle - après avoir déjà tiré balles sans remplacement - avoir la distribution catégorique étant donné la distribution sur ces distributions catégorielles .k E(Dk) Dk
Je suppose que vous demandez si est constant.E(Dk)
Je pense que c'est. Supposons que vous finissiez par tirer toutes les boules. Toutes les permutations des balles sont également probables. La probabilité de dessiner initialement est . Vous pouvez réorganiser vos choix en une permutation tout aussi probable selon laquelle votre première balle choisie a été choisie en dernier, et votre deuxième choisie a été choisie en premier. Cette balle a une attente , qui doit être égale à raison de la symétrie. Par induction, les sont tous égaux.E(D0) E(D1) E(D0) E(Di)
la source
La "distribution attendue" ne change pas. On pourrait utiliser un argument de martingale! J'ajouterai cela à la réponse plus tard (je voyage maintenant).
La distribution, conditionnelle aux tirages précédents (pour les tirages ultérieurs) ne change que lorsque vous observez réellement les tirages. Si vous tirez la balle de l'urne avec une main bien fermée, puis la jetez sans observer sa couleur (j'ai utilisé ce théâtre efficacement comme démonstration de classe), la distribution ne change pas. Ce fait a une explication: la probabilité est une information, la probabilité est un concept d'information.
Les probabilités ne changent donc que lorsque vous obtenez de nouvelles informations (probabilités conditionnelles, en d'autres termes). Tirer la balle et la jeter sans l'observer ne vous donne aucune nouvelle information, donc rien de nouveau à conditionner. Ainsi, lorsque vous conditionnez sur l'ensemble d'informations réel, cela n'a pas changé, de sorte que la distribution conditionnelle ne peut pas changer.
Je ne donnerai pas beaucoup plus de détails à cette réponse, j'ajoute seulement une référence: Hosam M. Mahmoud: "Pólya Urn Models" (Chapman & Hall), qui traite des modèles d'urnes comme celui de cette question, et aussi une urne beaucoup plus généralisée schémas, également en utilisant des méthodes de martingale pour obtenir des résultats limites. Mais les méthodes de martingale ne sont pas nécessaires pour la question dans ce post.
la source