Je pensais que les boîtes à moustaches ci-dessous pouvaient être interprétées comme «la plupart des hommes sont plus rapides que la plupart des femmes» (dans cet ensemble de données), principalement parce que le temps médian des hommes était inférieur à celui des femmes médianes. Mais le cours EdX sur la R et le quiz des statistiques m'a dit que c'était incorrect. Veuillez m'aider à comprendre pourquoi mon intuition est incorrecte.
Voici la question:
Prenons un échantillon aléatoire de finisseurs du Marathon de New York en 2002. Cet ensemble de données peut être trouvé dans le package UsingR. Chargez la bibliothèque, puis chargez le jeu de données nym.2002.
library(dplyr) data(nym.2002, package="UsingR")
Utilisez des boîtes à moustaches et des histogrammes pour comparer les temps de finition des mâles et des femelles. Lequel des énoncés suivants décrit le mieux la différence?
- Les mâles et les femelles ont la même distribution.
- La plupart des hommes sont plus rapides que la plupart des femmes.
- Les mâles et les femelles ont des distributions asymétriques droites similaires avec les premières, 20 minutes décalées vers la gauche.
- Les deux distributions sont normalement distribuées avec une différence moyenne d'environ 30 minutes.
Voici les temps de marathon de NYC pour les hommes et les femmes, sous forme de quantiles, d'histogrammes et de boîtes à moustaches:
# Men's time quantile
0% 25% 50% 75% 100%
147.3333 226.1333 256.0167 290.6375 508.0833
# Women's time quantile
0% 25% 50% 75% 100%
175.5333 250.8208 277.7250 309.4625 566.7833
Réponses:
Je pense que la raison pour laquelle vous avez été marqué comme incorrect n'est pas tant que la réponse que vous avez donnée à la question à choix multiples était erronée, mais plutôt que l'option 3 "Les hommes et les femmes ont des distributions asymétriques à droite similaires avec l'ancienne, 20 minutes décalées vers la gauche" aurait été un meilleur choix car il est plus informatif sur la base des informations fournies.
la source
Voici le plus petit contre-exemple que j'ai pu trouver:
A (
[1, 4, 10])
et B ([0, 6, 9]
) ont la même moyenne (5
)B a une médiane (
6
) plus grande que A (4
)Voici un autre exemple avec 4 éléments:
la source
Bien sûr, d'autres interprétations de la phrase sont possibles (c'est ce qu'est l'ambiguïté, après tout) et certaines de ces autres possibilités pourraient être cohérentes avec votre raisonnement.
[Nous avons également la question de savoir si nous parlons d'échantillons ou de populations ... "la plupart des hommes [...] la plupart des femmes" semble être une déclaration de population (sur une population de périodes potentielles), mais nous n'avons observé que des périodes que nous semblons traiter comme un échantillon, nous devons donc faire attention à l'étendue de notre allégation.]
[Je ne dis pas que vous vous trompez en pensant que la proportion de paires MF aléatoires où l'homme était plus rapide que la femme est supérieure à 1/2 - vous avez presque certainement raison. Je dis juste que vous ne pouvez pas le dire en comparant les médianes. Vous ne pouvez pas non plus le dire en examinant la proportion dans chaque échantillon au-dessus ou au-dessous de la médiane de l'autre échantillon. Il faudrait faire une comparaison différente.]
Exemple:
Ensemble de données A:
Ensemble de données B:
Ensemble de données C:
(Les données sont ici , mais utilisées à des fins différentes là-bas - à ma connaissance, j'ai généré celle-ci moi-même)
Notez que la proportion de A <B est 2/3, la proportion de A <C est 5/9 et la proportion de B <C est 2/3. A vs B et B vs C sont significatifs au niveau de 5% mais nous pouvons atteindre n'importe quel niveau de signification simplement en ajoutant suffisamment de copies des échantillons. On peut même éviter les égalités, en dupliquant les échantillons mais en ajoutant une gigue suffisamment petite (suffisamment plus petite que le plus petit écart entre les points)
Les médianes de l'échantillon vont dans l'autre sens: médiane (A)> médiane (B)> médiane (C)
Encore une fois, nous pourrions obtenir une signification pour une comparaison des médianes - à n'importe quel niveau de signification - en répétant les échantillons.
Pour le relier au problème actuel, imaginez que A est "le temps des femmes" et B est "le temps des hommes". Ensuite, le temps médian des hommes est plus rapide, mais un homme choisi au hasard sera 2/3 du temps plus lent qu'une femme choisie au hasard.
En nous inspirant des échantillons A et C, nous pouvons générer un plus grand ensemble de données (en R) comme suit:
La médiane de F sera d'environ 16,25 tandis que la médiane de M sera d'environ 11,25 mais la proportion de cas où F <M sera de 5/9.
la source
Les figures suivantes sont extraites de ce billet de blog , qui illustre une application pratique importante de ces idées.
La normalisation fournit un appareil puissant pour comparer 2 distributions. Les 3 chiffres suivants comparent la taille des garçons et des filles de 130 mois du National Child Measurement Program (NCMP) d'Angleterre. (Il s'agissait de l'âge modal dans cet ensemble de données; je l'ai sélectionné simplement pour obtenir le plus de données, et donc les graphiques les plus fluides, au sein d'une même cohorte d'âge.)
Figure 1: Taille des garçons et des filles âgés de 130 mois, selon le National Child Measurement Program (NCMP) de l'Angleterre
Figure 2: percentiles de taille pour les garçons et les filles âgés de 130 mois. Source: NCMP anglais
Figure 3: Répartition des hauteurs des filles de 130 mois par rapport aux garçons du même âge.
Dans la dernière de ces figures, la comparaison de la taille a été normalisée en fonction de la taille des garçons. Ainsi, en lisant le long des lignes grises pointillées de la figure 3, vous pouvez faire des déclarations telles que:
Un point de confusion possible dans cette intrigue mérite d'être mentionné. Bien que la ligne à 45 ° des garçons soit `` plus élevée '' sur l'intrigue que la courbe magenta des filles, cette observation correspond néanmoins au fait bien connu qu'à cet âge (il s'agit des élèves de 6e année), les filles sont généralement plus grandes que les garçons. . Notez que cette hauteur se reflète correctement dans le fait que la courbe magenta est décalée vers la droite par rapport à la ligne bleue.
Votre question d'origine peut maintenant être refondue en termes géométriques, comme une question de savoir si vous pourriez dessiner la courbe magenta de la figure 3 de manière à atteindre simultanément (a) la relation postulée entre les médianes et (b) la relation légèrement insaisissable que @Glen_b élucidé (correctement, je crois) dans sa réponse. Je me demande si les discontinuités de distribution (masses ponctuelles dans les densités) pourraient permettre de fournir un cas «pathologique». Je suppose qu'un tel cas pathologique sera «l'exception qui confirme la règle».
D'un autre côté, si l'intention réelle de «la plupart» était «> 50%», on pourrait s'attendre à ce que l'expression plus précise «une majorité de» ait été employée. Si quelqu'un me dit que quelque chose va "probablement" se produire, je pense qu'il est fait allusion à une probabilité subjective de 60% ou plus. De même, "le plus" pour moi signifie quelque chose d'un peu plus comme 70 à 80%. De toute évidence, d'après l'intrigue ci-dessus, si «la plupart» est pris comme critère plus strict que 52,5%, alors vous ne pouvez pas dire «la plupart des filles [ont la propriété d'être] plus grandes que la plupart des garçons». Je me demande si une partie de la justification de la question du quiz était de stimuler un examen des mots en ce qui concerne les notions numériques. (Si vous pensez que c'est un peu idiot, considérez ces graphiques, montrant comment les gens ont tendance à interpréter différents mots et expressions probabilistes.) L'intention était peut-être aussi de souligner le fait qu'il y a beaucoup de variations dans les distributions du monde réel, et qu'une statistique unique (médiane, moyenne, vous) soutiendrez rarement des déclarations larges et générales.
la source