Supposons que je possède des échantillons de deux populations distinctes. Si je mesure le temps qu'il faut à chaque membre pour accomplir une tâche, je peux facilement estimer la moyenne et la variance de chaque population.
Si je fais maintenant l'hypothèse d'un appariement aléatoire avec un individu de chaque population, puis-je estimer la probabilité que le premier soit plus rapide que le second?
J'ai un exemple concret en tête: les mesures sont des temps pour moi de faire du vélo de A à B et les populations représentent différents itinéraires que je pourrais emprunter; J'essaie de déterminer quelle est la probabilité que la sélection de la route A pour mon prochain cycle soit plus rapide que la sélection de la route B.Lorsque je fais le cycle, j'ai un autre point de données pour mon échantillon :).
Je suis conscient que c'est une façon horriblement simpliste d'essayer de résoudre ce problème, notamment parce que n'importe quel jour, le vent est plus susceptible d'affecter mon temps que toute autre chose, alors s'il vous plaît, faites-moi savoir si vous pensez que je demande la mauvaise question ...
la source
Réponses:
Solution
Supposons que les deux moyennes soient et μ y et leurs écarts-types respectivement σ x et σ y . La différence de timings entre deux trajets ( Y - X ) a donc une moyenne μ y - μ x et un écart type √μx μy σx σy Y−X μy−μx . La différence standardisée ("score z") estσ2x+σ2y−−−−−−√
À moins que vos temps de trajet aient des distributions étranges, la probabilité que le trajet prenne plus de temps que le trajet X est approximativement la distribution cumulative normale, Φ , évaluée à z .Y X Φ z
Calcul
Vous pouvez calculer cette probabilité sur l'un de vos trajets car vous avez déjà des estimations de etc. :-). A cet effet , il est facile de mémoriser quelques valeurs clés de Φ : Φ ( 0 ) = 0,5 = 1 / 2 , Φ ( - 1 ) ≈ 0,16 ≈ 1 / 6 , Φ ( - 2 ) ≈ 0,022 ≈ 1 / 40 , et Φ ( - 3 ) ≈ 0,0013μx Φ Φ(0)=.5=1/2 Φ(−1)≈0.16≈1/6 Φ(−2)≈0.022≈1/40 . (L'approximation peut être médiocre pour | z | beaucoup plus grand que 2 , mais sachant que Φ ( - 3 ) aide à l'interpolation.) En conjonction avec Φ ( z ) = 1 - Φ ( - z ) et un peu d'interpolation, vous peut rapidement estimer la probabilité à un chiffre significatif, ce qui est plus que suffisamment précis compte tenu de la nature du problème et des données.Φ(−3)≈0.0013≈1/750 |z| 2 Φ(−3) Φ(z)=1−Φ(−z)
Exemple
Supposons que l'itinéraire prenne 30 minutes avec un écart type de 6 minutes et que l'itinéraire Y prenne 36 minutes avec un écart type de 8 minutes. Avec suffisamment de données couvrant un large éventail de conditions, les histogrammes de vos données pourraient éventuellement se rapprocher de celles-ci:X Y
(Ce sont des fonctions de densité de probabilité pour les variables Gamma (25, 30/25) et Gamma (20, 36/20). Observez qu'elles sont décidément asymétriques vers la droite, comme on peut s'y attendre pour les temps de trajet.)
alors
D'où
Nous avons
Nous estimons donc que la réponse est 0,6 entre 0,5 et 0,84: 0,5 + 0,6 * (0,84 - 0,5) = environ 0,70. (La valeur correcte mais trop précise pour la distribution normale est 0,73.)
Il y a environ 70% de chances que la route prendra plus de temps que la route X . Faire ce calcul dans votre tête vous fera oublier la prochaine colline. :-)Y X
(La probabilité correcte pour les histogrammes présentés est de 72%, même si aucun n'est normal: cela illustre la portée et l'utilité de l'approximation normale pour la différence de temps de trajet.)
la source
Mon approche instinctive n'est peut-être pas la plus sophistiquée statistiquement, mais vous pouvez la trouver plus amusante :)
J'obtiendrais une feuille de papier graphique de taille décente et diviserais les colonnes en blocs de temps. Selon la durée de vos trajets - parlons-nous d'une durée moyenne de 5 minutes ou d'une heure - vous pouvez utiliser des blocs de tailles différentes. Disons que chaque colonne est un bloc de deux minutes. Choisissez une couleur pour l'itinéraire A et une couleur différente pour l'itinéraire B, et après chaque trajet, faites un point dans la colonne appropriée. S'il y a déjà un point de cette couleur, remontez d'une ligne. En d'autres termes, ce serait un histogramme en nombres absolus.
Ensuite, vous construirez un histogramme amusant avec chaque trajet que vous effectuez et pourrez voir visuellement la différence entre les deux itinéraires.
Mon sentiment basé sur ma propre expérience en tant que banlieusard de vélo (non vérifié par la quantification) est que les temps ne seront pas normalement distribués - ils auraient un biais positif, ou en d'autres termes une longue queue de temps haut de gamme. Mon temps typique n'est pas beaucoup plus long que mon temps le plus court possible, mais de temps en temps, je semble allumer tous les feux rouges, et il y a un haut de gamme beaucoup plus élevé. Votre expérience peut être différente. C'est pourquoi je pense que l'approche histogramme pourrait être meilleure, afin que vous puissiez observer vous-même la forme de la distribution.
PS: Je n'ai pas assez de représentants pour commenter ce forum, mais j'adore la réponse de whuber! Il répond assez efficacement à ma préoccupation concernant l'asymétrie avec une analyse d'échantillon. Et j'aime l'idée de calculer dans votre tête pour garder votre esprit loin de la prochaine colline :)
la source
la source
for
boucle: laisserx1 = sample(X, 10000, replace = TRUE)
ety1 = sample(Y, 10000, replace = TRUE)
puis calculermean(x1 > y1)
avecmean(x1 == y1)
- pour avoir une idée du nombre de fois les valeurs sont égales.