Supposons que huit coureurs participent à une course; la distribution de leurs temps d'exécution individuels est normale et chacun a une moyenne de secondes, par exemple. L'écart type du coureur un est le plus petit, deux le deuxième plus petit, le troisième le plus petit, etc., et huit le plus grand. Deux questions me déroutent: (1) Quelle est la probabilité que le premier bat le dernier et (2) qui est le plus susceptible de gagner la course?
Mes réponses sont et , respectivement. Puisqu'ils partagent la même moyenne, la probabilité que soit juste , non? Comment puis-je démontrer la deuxième partie de façon rigoureuse et peut-on calculer une probabilité exacte de gagner? Merci d'avance.
Réponses:
Bien qu'une probabilité exacte ne puisse pas être calculée (sauf dans des circonstances spéciales avec ), elle peut être calculée numériquement rapidement avec une grande précision. Malgré cette limitation, il peut être rigoureusement prouvé que le coureur avec le plus grand écart-type a la plus grande chance de gagner. La figure illustre la situation et montre pourquoi ce résultat est intuitivement évident:n≤2
Les densités de probabilité pour les temps de cinq coureurs sont indiquées. Tous sont continus et symétriques par rapport à une moyenne commune . (Des densités bêta à l'échelle ont été utilisées pour garantir que tous les temps sont positifs.) Une densité, dessinée en bleu foncé, a une propagation beaucoup plus grande. La partie visible de sa queue gauche représente des temps qu'aucun autre coureur ne peut généralement égaler. Parce que cette queue gauche, avec sa surface relativement grande, représente une probabilité appréciable, le coureur avec cette densité a la plus grande chance de gagner la course. (Ils ont également la plus grande chance de venir en dernier!)μ
Ces résultats sont prouvés pour plus que des distributions normales: les méthodes présentées ici s'appliquent également aux distributions symétriques et continues. (Cela intéressera toute personne qui s'oppose à l'utilisation de distributions normales pour modéliser les temps d'exécution.) Lorsque ces hypothèses sont violées, il est possible que le coureur avec le plus grand écart-type n'ait pas la plus grande chance de gagner (je laisse la construction de contre-exemples à lecteurs intéressés), mais nous pouvons toujours prouver sous des hypothèses plus douces que le coureur avec le plus grand SD aura les meilleures chances de gagner à condition que SD soit suffisamment grand.
La figure suggère également que les mêmes résultats pourraient être obtenus en considérant les analogues unilatéraux de l'écart type (la soi-disant "semi-variance"), qui mesurent la dispersion d'une distribution d'un côté seulement. Un coureur avec une grande dispersion vers la gauche (vers des temps meilleurs) devrait avoir une plus grande chance de gagner, indépendamment de ce qui se passe dans le reste de la distribution. Ces considérations nous aident à apprécier en quoi la propriété d' être le meilleur (dans un groupe) diffère d'autres propriétés telles que les moyennes.
Soit des variables aléatoires représentant les temps des coureurs. La question suppose qu'ils sont indépendants et normalement distribués avec une moyenne commune μ . (Bien que ce soit littéralement un modèle impossible, car il présente des probabilités positives pour des temps négatifs, il peut toujours être une approximation raisonnable de la réalité à condition que les écarts-types soient sensiblement inférieurs à μ .)X1,…,Xn μ μ
Pour mener à bien l'argument suivant, retenons la supposition d'indépendance mais supposons autrement que les distributions des sont données par F i et que ces lois de distribution peuvent être n'importe quoi. Pour plus de commodité, supposons également que la distribution F n soit continue avec la densité f n . Plus tard, au besoin, nous pouvons appliquer des hypothèses supplémentaires à condition qu'elles incluent le cas des distributions normales.Xi Fi Fn fn
Pour tout et d y infinitésimal , la chance que le dernier coureur ait un temps dans l'intervalle ( y - d y , y ] et soit le coureur le plus rapide est obtenue en multipliant toutes les probabilités pertinentes (car tous les temps sont indépendants):y dy (y−dy,y]
L'intégration sur toutes ces possibilités mutuellement exclusives donne
Pour les distributions normales, cette intégrale ne peut pas être évaluée sous forme fermée lorsque : elle nécessite une évaluation numérique.n>2
Cette figure représente l'intégrale pour chacun des cinq coureurs ayant des écarts-types dans le rapport 1: 2: 3: 4: 5. Plus le SD est grand, plus la fonction est décalée vers la gauche - et plus sa zone est grande. Les zones sont d'environ 8: 14: 21: 26: 31%. En particulier, le coureur avec le plus grand écart-type a 31% de chances de gagner.
Bien qu'une forme fermée ne puisse pas être trouvée, nous pouvons toujours tirer des conclusions solides et prouver que le coureur avec le plus grand SD est le plus susceptible de gagner. Nous devons étudier ce qui se passe lorsque l'écart-type de l'une des distributions, disons , change. Lorsque la variable aléatoire X n est redimensionnée par σ > 0 autour de sa moyenne, sa SD est multipliée par σ et f n ( y ) d y changera en f n ( y / σ ) d y / σFn Xn σ>0 σ fn(y)dy fn(y/σ)dy/σ . Faire le changement de la variable dans l'intégrale donne une expression pour la chance de gagner n coureur , en fonction de σ :y=xσ n σ
Supposons maintenant que les médianes de toutes les distributions soient égales et que toutes les distributions soient symétriques et continues, avec des densités f i . (C'est certainement le cas dans les conditions de la question, car une médiane normale est sa moyenne.) Par un simple changement (de localisation) de variable, nous pouvons supposer que cette médiane commune est 0 ; la symétrie signifie f n ( y ) = f n ( - y ) et 1 - F j ( - y ) = F j ( yn fi 0 fn(y)=fn(−y) pour tous les y . Ces relations nous permettent de combiner l'intégrale sur ( - ∞ , 0 ] avec l'intégrale sur ( 0 , ∞ ) pour donner1−Fj(−y)=Fj(y) y (−∞,0] (0,∞)
La fonction est différenciable. Sa dérivée, obtenue en différenciant l'intégrande, est une somme d'intégrales où chaque terme est de la formeϕ
pour .i=1,2,…,n−1
Les hypothèses que nous avons faites sur les distributions ont été conçues pour garantir que pour x ≥ 0 . Ainsi, puisque x = y σ ≥ 0 , chaque terme dans le produit de gauche dépasse son terme correspondant dans le produit de droite, ce qui implique que la différence de produits n'est pas négative. Les autres facteurs y f n ( y ) f i ( y σ ) sont clairement non négatifs car les densités ne peuvent pas être négatives etFj(x)≥1−Fj(x) x≥0 x=yσ≥0 yfn(y)fi(yσ) . On peut conclure que ϕ ′ ( σ ) ≥ 0 pour σ ≥ 0 , prouvant quela chance que le joueur n gagne augmente avec l'écart type de X n .y≥0 ϕ′(σ)≥0 σ≥0 n Xn
Cela suffit pour prouver que le coureur gagnera à condition que l'écart-type de X n soit suffisamment grand. Ce n'est pas tout à fait satisfaisant, car un écart-type important pourrait entraîner un modèle physiquement irréaliste (où les temps de victoire négatifs ont des chances appréciables). Mais supposons que toutes les distributions aient des formes identiques en dehors de leurs écarts-types . Dans ce cas, quand ils ont tous la même SD, les X i sont indépendants et identiques: personne ne peut avoir plus ou moins de chances de gagner que quiconque, donc toutes les chances sont égales (à 1 / n ). Commencez par définir toutes les distributions sur celle du coureur nn Xn Xi 1/n n . Maintenant, diminuez progressivement les SD de tous les autres coureurs, un à la fois. Dans ce cas, les chances que gagne ne peuvent pas diminuer, tandis que les chances de tous les autres coureurs ont diminué. Par conséquent, n a les plus grandes chances de gagner, QED .n n
la source