Comment puis-je estimer la probabilité qu'un membre aléatoire d'une population soit «meilleur» qu'un membre aléatoire d'une population différente?

15

Supposons que je possède des échantillons de deux populations distinctes. Si je mesure le temps qu'il faut à chaque membre pour accomplir une tâche, je peux facilement estimer la moyenne et la variance de chaque population.

Si je fais maintenant l'hypothèse d'un appariement aléatoire avec un individu de chaque population, puis-je estimer la probabilité que le premier soit plus rapide que le second?

J'ai un exemple concret en tête: les mesures sont des temps pour moi de faire du vélo de A à B et les populations représentent différents itinéraires que je pourrais emprunter; J'essaie de déterminer quelle est la probabilité que la sélection de la route A pour mon prochain cycle soit plus rapide que la sélection de la route B.Lorsque je fais le cycle, j'ai un autre point de données pour mon échantillon :).

Je suis conscient que c'est une façon horriblement simpliste d'essayer de résoudre ce problème, notamment parce que n'importe quel jour, le vent est plus susceptible d'affecter mon temps que toute autre chose, alors s'il vous plaît, faites-moi savoir si vous pensez que je demande la mauvaise question ...

Andrew Aylett
la source
Cela peut être fait via de simples tests binomiaux et @Macro a une bonne réponse. Cependant, un problème concerne les échantillons eux-mêmes: y a-t-il quelque chose qui pourrait affecter votre décision de prendre la route A ou la route B? En particulier, aimez-vous emprunter la route A lorsque les routes sont sèches, le vent est dans votre dos et le dîner vous attend? :) Faites juste attention à tout ce qui pourrait affecter les valeurs aberrantes dans les deux ensembles ou qui pourrait biaiser les échantillons d'une manière ou d'une autre. Par exemple, essayez de configurer votre plan d'échantillonnage à l'avance, en tenant compte de tout besoin de varier (par exemple, la sécurité).
Iterator
Une autre considération: supposons que vous ayez deux routes avec des moyens très similaires et qu'aucune ne domine l'autre en termes de probabilité qu'elle soit plus rapide. Par exemple, l'un est toujours de 10 ou 20 minutes, tandis que l'autre est toujours précisément de 15 minutes. Il peut être préférable de pénaliser une plus grande incertitude (par exemple l'écart-type), ou d'en privilégier une plus susceptible de prendre moins d'un certain seuil de temps. Votre question telle quelle est très bien; Je suggère simplement un perfectionnement futur.
Iterator
La question statistique est bonne, mais si vous voulez déterminer la probabilité de l'itinéraire le plus rapide, je vous suggère de mesurer la longueur des itinéraires. Si le terrain n'est pas vallonné, l'itinéraire le plus court sera toujours plus rapide.
mpiktas
Si le vent est un facteur important, et si les vitesses du vent sont liées pour les deux itinéraires, il semblerait qu'une personne aurait besoin d'informations sur la dépendance entre A et B pour répondre avec précision à la question. Vous auriez besoin de données bivariées pour cela, et il est difficile de parcourir deux chemins en même temps. Vous pouvez enrôler quelqu'un d'autre pour vous aider à collecter des données, mais vous devrez alors tenir compte de la variabilité entre les cyclistes. Dans le cas où A et B sont indépendants, les réponses ci-dessous sont excellentes.
En d'autres termes: si j'essaie de décider quel chemin prendre, celui qui traverse un tunnel, celui qui traverse un champ et le vent souffle comme un fou, je peux très bien choisir le champ même s'il fait horriblement pire en moyenne.

Réponses:

12

Solution

Supposons que les deux moyennes soient et μ y et leurs écarts-types respectivement σ x et σ y . La différence de timings entre deux trajets ( Y - X ) a donc une moyenne μ y - μ x et un écart type μxμyσxσyYXμyμx . La différence standardisée ("score z") estσx2+σy2

z=μyμXσX2+σy2.

À moins que vos temps de trajet aient des distributions étranges, la probabilité que le trajet prenne plus de temps que le trajet X est approximativement la distribution cumulative normale, Φ , évaluée à z .YXΦz

Calcul

Vous pouvez calculer cette probabilité sur l'un de vos trajets car vous avez déjà des estimations de etc. :-). A cet effet , il est facile de mémoriser quelques valeurs clés de Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) 0,16 1 / 6 , Φ ( - 2 ) 0,022 1 / 40 , et Φ ( - 3 ) 0,0013μxΦΦ(0)=.5=1/2Φ(1)0.161/6Φ(2)0.0221/40 . (L'approximation peut être médiocre pour | z | beaucoup plus grand que 2 , mais sachant que Φ ( - 3 ) aide à l'interpolation.) En conjonction avec Φ ( z ) = 1 - Φ ( - z ) et un peu d'interpolation, vous peut rapidement estimer la probabilité à un chiffre significatif, ce qui est plus que suffisamment précis compte tenu de la nature du problème et des données.Φ(3)0.00131/750|z|2Φ(3)Φ(z)=1Φ(z)

Exemple

Supposons que l'itinéraire prenne 30 minutes avec un écart type de 6 minutes et que l'itinéraire Y prenne 36 minutes avec un écart type de 8 minutes. Avec suffisamment de données couvrant un large éventail de conditions, les histogrammes de vos données pourraient éventuellement se rapprocher de celles-ci:XY

Deux histogrammes

(Ce sont des fonctions de densité de probabilité pour les variables Gamma (25, 30/25) et Gamma (20, 36/20). Observez qu'elles sont décidément asymétriques vers la droite, comme on peut s'y attendre pour les temps de trajet.)

alors

μx=30,μy=36,σx=6,σy=8.

D'où

z=363062+82=0.6.

Nous avons

Φ(0)=0.5;Φ(1)=1Φ(1)10.16=0,84.

Nous estimons donc que la réponse est 0,6 entre 0,5 et 0,84: 0,5 + 0,6 * (0,84 - 0,5) = environ 0,70. (La valeur correcte mais trop précise pour la distribution normale est 0,73.)

Il y a environ 70% de chances que la route prendra plus de temps que la route X . Faire ce calcul dans votre tête vous fera oublier la prochaine colline. :-)YX

(La probabilité correcte pour les histogrammes présentés est de 72%, même si aucun n'est normal: cela illustre la portée et l'utilité de l'approximation normale pour la différence de temps de trajet.)

whuber
la source
si vous avez des réalisations iid de chaque distribution, quel est l'avantage d'utiliser l'approximation normale plutôt qu'une approche de rééchantillonnage de monte carlo (ma réponse) pour estimer ? P(X>Y)
Macro
@Macro: si les données peuvent être réduites à des statistiques récapitulatives pour le Q d'intérêt, on peut stocker moins de données ... juste une pensée.
Iterator
Désolé, mon cerveau était frit par la chaleur et j'ai raté la réponse évidente. Vous répondez chacun à des questions différentes. La méthode bootstrap que vous avez donnée estime , tandis que @whuber considère la différence dans les temps moyens, qui n'est pas la même. Il est pas trop difficile de construire un cas où l' option Y est plus courte que l' option X 60% du temps, mais la moyenne pour Y est supérieure à la moyenne pour X . P(X>Y)YXYX
Iterator
FWIW: @whuber décrit le test t de Student pour la différence de moyenne entre deux échantillons avec des écarts-types différents.
Iterator
1
Merci, @whuber, c'est la réponse à la question que j'essayais de poser :).
Andrew Aylett
6

Mon approche instinctive n'est peut-être pas la plus sophistiquée statistiquement, mais vous pouvez la trouver plus amusante :)

J'obtiendrais une feuille de papier graphique de taille décente et diviserais les colonnes en blocs de temps. Selon la durée de vos trajets - parlons-nous d'une durée moyenne de 5 minutes ou d'une heure - vous pouvez utiliser des blocs de tailles différentes. Disons que chaque colonne est un bloc de deux minutes. Choisissez une couleur pour l'itinéraire A et une couleur différente pour l'itinéraire B, et après chaque trajet, faites un point dans la colonne appropriée. S'il y a déjà un point de cette couleur, remontez d'une ligne. En d'autres termes, ce serait un histogramme en nombres absolus.

Ensuite, vous construirez un histogramme amusant avec chaque trajet que vous effectuez et pourrez voir visuellement la différence entre les deux itinéraires.

Mon sentiment basé sur ma propre expérience en tant que banlieusard de vélo (non vérifié par la quantification) est que les temps ne seront pas normalement distribués - ils auraient un biais positif, ou en d'autres termes une longue queue de temps haut de gamme. Mon temps typique n'est pas beaucoup plus long que mon temps le plus court possible, mais de temps en temps, je semble allumer tous les feux rouges, et il y a un haut de gamme beaucoup plus élevé. Votre expérience peut être différente. C'est pourquoi je pense que l'approche histogramme pourrait être meilleure, afin que vous puissiez observer vous-même la forme de la distribution.

PS: Je n'ai pas assez de représentants pour commenter ce forum, mais j'adore la réponse de whuber! Il répond assez efficacement à ma préoccupation concernant l'asymétrie avec une analyse d'échantillon. Et j'aime l'idée de calculer dans votre tête pour garder votre esprit loin de la prochaine colline :)

Jonathan
la source
1
+1 Pour la créativité. En fait, votre idée est sur la voie de l'utilité pratique. Il serait un peu plus intéressant d'utiliser l'un des sites de suivi de vélo (j'oublie lequel maintenant, mais ajoutez-le, si vous le savez) pour suivre les temps de segment. Si l'OP revenait à CV ou StackOverflow avec une question sur le traçage du temps de segment et obtenait une densité associée, ce serait un exercice statistique fabuleux - SIG, visualisation statistique et fonctions de densité, oh mon Dieu! :)
Iterator
1
J'ai utilisé Google MyTracks sur mon téléphone pour suivre les segments de vélo. Je trouve que le téléphone n'est pas génial car il a tendance à être un alimentateur sur un appareil non optimisé pour cela. Garmin (et d'autres) fabrique des appareils GPS spécifiquement destinés aux coureurs et aux motards pour suivre le temps passé sur les itinéraires et fournir des graphiques soignés dans une interface en ligne. Je n'utilise pas moi-même un appareil GPS dédié, mais certains de mes amis les utilisent pour partager des itinéraires sur Facebook.
Jonathan
1
Voici un exemple de ce que produit l'appareil Garmin. Le problème avec les graphiques est qu'ils sont déjà fortement prétraités, lissés, etc. De plus, il n'y a aucun moyen pratique d'importer les données dans R par exemple. Mais en tant qu'appareil dédié, il fait son travail à merveille, je ne peux pas imaginer courir ou faire du vélo sans lui.
mpiktas
+1 Notez qu'il n'y a pas beaucoup d'inclinaison en frappant les lumières rouges (à moins qu'elles ne soient chronométrées): collectivement, elles n'ajoutent généralement qu'un peu de bruit gaussien à la distribution temporelle. (Le calcul de sa variance est un autre exercice mental que vous pouvez faire sur la prochaine colline.) Dans la pratique, l'inclinaison provient d'une variation non gaussienne des quelques facteurs importants qui contrôlent l'ensemble du trajet: la météo, comment vous vous sentez, avec qui vous ''
rééquitation,
Maintenant que j'y pense un peu plus, un autre facteur très important est le moment de la journée. Les feux de circulation agissent très différemment aux heures de pointe - des verts beaucoup plus longs pour la route à plus fort trafic. En dehors des heures de pointe, les feux ont tendance à tourner rapidement, passant au vert par défaut pour la route à fort trafic, mais changeant rapidement lorsque j'appuie sur le bouton de croisement ou qu'une voiture active le capteur.
Jonathan
5

XYx,yx>yP(Xi>Yj)i,j

#X, Y are the two data sets
ii = rep(0,10000)
for(k in 1:10000)
{
   x1 = sample(X,1)
   y1 = sample(Y,1)
   ii[k] = (x1>y1) 
}

# this is an estimate of P(X>Y)
mean(ii)
Macro
la source
Ceci est une bonne réponse, mais vous pouvez le simplifier en supprimant la forboucle: laisser x1 = sample(X, 10000, replace = TRUE)et y1 = sample(Y, 10000, replace = TRUE)puis calculer mean(x1 > y1)avec mean(x1 == y1)- pour avoir une idée du nombre de fois les valeurs sont égales.
Iterator
Merci. Je savais que la boucle n'était pas nécessaire mais je voulais que la logique sous-jacente à l'approche soit très claire. Votre code produirait certainement les mêmes résultats.
Macro