Pourquoi le fait qu'une médiane soit inférieure à une autre médiane ne signifie-t-il pas que la plupart dans le groupe 1 sont inférieurs à la plupart dans le groupe 2?

9

Je pensais que les boîtes à moustaches ci-dessous pouvaient être interprétées comme «la plupart des hommes sont plus rapides que la plupart des femmes» (dans cet ensemble de données), principalement parce que le temps médian des hommes était inférieur à celui des femmes médianes. Mais le cours EdX sur la R et le quiz des statistiques m'a dit que c'était incorrect. Veuillez m'aider à comprendre pourquoi mon intuition est incorrecte.

Voici la question:

Prenons un échantillon aléatoire de finisseurs du Marathon de New York en 2002. Cet ensemble de données peut être trouvé dans le package UsingR. Chargez la bibliothèque, puis chargez le jeu de données nym.2002.

library(dplyr)
data(nym.2002, package="UsingR")

Utilisez des boîtes à moustaches et des histogrammes pour comparer les temps de finition des mâles et des femelles. Lequel des énoncés suivants décrit le mieux la différence?

  1. Les mâles et les femelles ont la même distribution.
  2. La plupart des hommes sont plus rapides que la plupart des femmes.
  3. Les mâles et les femelles ont des distributions asymétriques droites similaires avec les premières, 20 minutes décalées vers la gauche.
  4. Les deux distributions sont normalement distribuées avec une différence moyenne d'environ 30 minutes.

Voici les temps de marathon de NYC pour les hommes et les femmes, sous forme de quantiles, d'histogrammes et de boîtes à moustaches:

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

Temps masculin et féminin - histogramme

Temps masculin et féminin - boxplot

cumin
la source
Pour vérifier visuellement la même distribution, vos histogrammes doivent utiliser le même domaine x et les mêmes bacs, tandis que l'axe y doit montrer la fréquence relative. La taille de la bande de casiers bénéficierait d'une granularité plus élevée, par exemple 25 ou 50 minutes. De plus, sur les boîtes à moustaches et les histogrammes, tracez la médiane (déjà dans les boîtes à moustaches), la moyenne et le mode.
g3o2
{0,3}{2}0.5P(X>Y)>0.5

Réponses:

7

Je pense que la raison pour laquelle vous avez été marqué comme incorrect n'est pas tant que la réponse que vous avez donnée à la question à choix multiples était erronée, mais plutôt que l'option 3 "Les hommes et les femmes ont des distributions asymétriques à droite similaires avec l'ancienne, 20 minutes décalées vers la gauche" aurait été un meilleur choix car il est plus informatif sur la base des informations fournies.

Robert Jones
la source
Je suis d'accord avec cette explication. En outre, «le plus rapide que la plupart» est tellement ambigu. Malgré la réponse donnée par @glen_b, je m'attendrais à beaucoup plus de séparation dans les boîtes à moustaches pour ce type de langage. Comme "75% des hommes sont plus rapides que 75% des femmes", ce qui, à mon avis, se traduirait par un 75e centile du temps des hommes inférieur au 25e centile du temps des femmes. Mais la langue est ambiguë.
Sal Mangiafico
1
De plus, cela revient à un principe de passer des tests à choix multiples: choisissez toujours la meilleure réponse.
Sal Mangiafico
C'est logique; ce n'est pas que l'autre choix était MAUVAIS, mais que le bon choix ("Les mâles et les femelles ont des distributions asymétriques droites similaires avec le premier, 20 minutes décalées vers la gauche.") était plus vrai. Cependant, je ne vois pas vraiment le décalage de 20 minutes dans les histogrammes; cela ressemble plus à un décalage de 50 minutes pour moi. Comme j'avais deux chances, j'ai eu la bonne question, FWIW :-).
cumin du
@cumin: Je ne suis pas sûr que ce soit correct en fait. "La plupart des hommes sont plus rapides que la plupart des femmes" est vague quant à ce que "la plupart" signifie - je ne crois pas avoir jamais vu une définition rigoureuse, et intuitivement c'est généralement beaucoup plus de 50% (peut-être 70% +?) . S'ils disaient "la majorité", ce serait peut-être plus clair.
user541686
9

Voici le plus petit contre-exemple que j'ai pu trouver:

A 1,4,10;  B 0,6,9

  • A ( [1, 4, 10])et B ( [0, 6, 9]) ont la même moyenne ( 5)

  • B a une médiane ( 6) plus grande que A ( 4)

  • Il y a une probabilité de 5/9 qu'un élément A aléatoire soit plus grand qu'un élément B aléatoire .

Voici un autre exemple avec 4 éléments:

A 1,1,3,10;  B 0,0,6,9

Eric Duminil
la source
7

P(Mi<Fj)>12i,jMii

Bien sûr, d'autres interprétations de la phrase sont possibles (c'est ce qu'est l'ambiguïté, après tout) et certaines de ces autres possibilités pourraient être cohérentes avec votre raisonnement.

[Nous avons également la question de savoir si nous parlons d'échantillons ou de populations ... "la plupart des hommes [...] la plupart des femmes" semble être une déclaration de population (sur une population de périodes potentielles), mais nous n'avons observé que des périodes que nous semblons traiter comme un échantillon, nous devons donc faire attention à l'étendue de notre allégation.]

P(Mi<Fj)>12M~<F~

[Je ne dis pas que vous vous trompez en pensant que la proportion de paires MF aléatoires où l'homme était plus rapide que la femme est supérieure à 1/2 - vous avez presque certainement raison. Je dis juste que vous ne pouvez pas le dire en comparant les médianes. Vous ne pouvez pas non plus le dire en examinant la proportion dans chaque échantillon au-dessus ou au-dessous de la médiane de l'autre échantillon. Il faudrait faire une comparaison différente.]

12


Exemple:

Ensemble de données A:

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

Ensemble de données B:

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

Ensemble de données C:

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(Les données sont ici , mais utilisées à des fins différentes là-bas - à ma connaissance, j'ai généré celle-ci moi-même)

Notez que la proportion de A <B est 2/3, la proportion de A <C est 5/9 et la proportion de B <C est 2/3. A vs B et B vs C sont significatifs au niveau de 5% mais nous pouvons atteindre n'importe quel niveau de signification simplement en ajoutant suffisamment de copies des échantillons. On peut même éviter les égalités, en dupliquant les échantillons mais en ajoutant une gigue suffisamment petite (suffisamment plus petite que le plus petit écart entre les points)

Les médianes de l'échantillon vont dans l'autre sens: médiane (A)> médiane (B)> médiane (C)

Encore une fois, nous pourrions obtenir une signification pour une comparaison des médianes - à n'importe quel niveau de signification - en répétant les échantillons.

Diagramme à bande des échantillons A, B et C avec les médianes marquées en montrant P (A <B) dans la direction opposée aux médianes, etc.

Pour le relier au problème actuel, imaginez que A est "le temps des femmes" et B est "le temps des hommes". Ensuite, le temps médian des hommes est plus rapide, mais un homme choisi au hasard sera 2/3 du temps plus lent qu'une femme choisie au hasard.

En nous inspirant des échantillons A et C, nous pouvons générer un plus grand ensemble de données (en R) comme suit:

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

La médiane de F sera d'environ 16,25 tandis que la médiane de M sera d'environ 11,25 mais la proportion de cas où F <M sera de 5/9.

n13

P(F<med(M))=23P(M>med(F))=23med(M)<med(F)

Glen_b -Reinstate Monica
la source
Je peux voir comment les moyens peuvent aller dans des directions opposées, mais je dois admettre que mes intuitions correspondent ici aux PO. Je ne vois pas comment les médianes peuvent (à part la question de l'erreur d'échantillonnage).
gung - Réintégrer Monica
@gung J'ai inclus un exemple. J'aime piquer mes intuitions initiales de cette façon - en leur trouvant des contre-exemples. Si j'en rencontre plus (je crois que j'en ai un autre quelque part), j'essaierai de les mentionner.
Glen_b -Reinstate Monica
Le boxplot de la question d'origine montre qu'environ 60 à 65% (par le globe oculaire) des hommes ont un temps inférieur au temps médian pour les femmes (c'est-à-dire inférieur au temps pour 50% des femmes). C'est la pièce que j'aurais aimé expliquer plus loin.
cumin du
P(Ai<Cj)ij
3
J'interpréterais l'expression "la plupart des hommes sont plus rapides que la plupart des femmes" comme "au moins 50% des hommes sont plus rapides qu'au moins 50% des femmes". En d'autres termes: étant donné un homme X, il est logique de demander si X est plus rapide que 50% des femmes. Pour moi, la réclamation dit alors qu'au moins 50% des hommes ont cette propriété. Cela (je pense) est VRAI si l'homme médian est plus rapide que la femme médiane, puisque 50% des hommes seraient plus rapides que l'homme médian, qui est plus rapide que la femme médiane, qui est plus rapide que 50% des femmes. (Mais notez que cela ne couvre que 25% des paires femme-homme, ce qui explique, je pense, votre excellent exemple.)
mathmandan
3

Les figures suivantes sont extraites de ce billet de blog , qui illustre une application pratique importante de ces idées.

La normalisation fournit un appareil puissant pour comparer 2 distributions. Les 3 chiffres suivants comparent la taille des garçons et des filles de 130 mois du National Child Measurement Program (NCMP) d'Angleterre. (Il s'agissait de l'âge modal dans cet ensemble de données; je l'ai sélectionné simplement pour obtenir le plus de données, et donc les graphiques les plus fluides, au sein d'une même cohorte d'âge.)

Figure 1: Taille des garçons et des filles âgés de 130 mois, selon le National Child Measurement Program (NCMP) de l'Angleterre

Figure 1: Taille des garçons et des filles âgés de 130 mois, selon le National Child Measurement Program (NCMP) de l'Angleterre

Figure 2: percentiles de taille pour les garçons et les filles âgés de 130 mois.  Source: NCMP anglais

Figure 2: percentiles de taille pour les garçons et les filles âgés de 130 mois. Source: NCMP anglais

Figure 3: Répartition des hauteurs des filles de 130 mois par rapport aux garçons du même âge.

Figure 3: Répartition des hauteurs des filles de 130 mois par rapport aux garçons du même âge.

Dans la dernière de ces figures, la comparaison de la taille a été normalisée en fonction de la taille des garçons. Ainsi, en lisant le long des lignes grises pointillées de la figure 3, vous pouvez faire des déclarations telles que:

  • La taille médiane (c.-à-d. 50e centile) pour les garçons est d'environ 45e centile pour les filles. Ainsi, 100% - 45% = 55% des filles étaient plus grandes que le garçon médian.
  • La hauteur du quartile supérieur (75e centile) pour les filles atteint le quintile supérieur (80e centile) pour les garçons. Ainsi, parmi les enfants âgés de 130 mois, une fille de plus de 3 filles sur 4 est également plus grande que 4 garçons sur 5.

Un point de confusion possible dans cette intrigue mérite d'être mentionné. Bien que la ligne à 45 ° des garçons soit `` plus élevée '' sur l'intrigue que la courbe magenta des filles, cette observation correspond néanmoins au fait bien connu qu'à cet âge (il s'agit des élèves de 6e année), les filles sont généralement plus grandes que les garçons. . Notez que cette hauteur se reflète correctement dans le fait que la courbe magenta est décalée vers la droite par rapport à la ligne bleue.

(0,0)(1,1)

Votre question d'origine peut maintenant être refondue en termes géométriques, comme une question de savoir si vous pourriez dessiner la courbe magenta de la figure 3 de manière à atteindre simultanément (a) la relation postulée entre les médianes et (b) la relation légèrement insaisissable que @Glen_b élucidé (correctement, je crois) dans sa réponse. Je me demande si les discontinuités de distribution (masses ponctuelles dans les densités) pourraient permettre de fournir un cas «pathologique». Je suppose qu'un tel cas pathologique sera «l'exception qui confirme la règle».


xxa cette propriété. De ce fait, la réponse à la question du quiz serait oui .

D'un autre côté, si l'intention réelle de «la plupart» était «> 50%», on pourrait s'attendre à ce que l'expression plus précise «une majorité de» ait été employée. Si quelqu'un me dit que quelque chose va "probablement" se produire, je pense qu'il est fait allusion à une probabilité subjective de 60% ou plus. De même, "le plus" pour moi signifie quelque chose d'un peu plus comme 70 à 80%. De toute évidence, d'après l'intrigue ci-dessus, si «la plupart» est pris comme critère plus strict que 52,5%, alors vous ne pouvez pas dire «la plupart des filles [ont la propriété d'être] plus grandes que la plupart des garçons». Je me demande si une partie de la justification de la question du quiz était de stimuler un examen des mots en ce qui concerne les notions numériques. (Si vous pensez que c'est un peu idiot, considérez ces graphiques, montrant comment les gens ont tendance à interpréter différents mots et expressions probabilistes.) L'intention était peut-être aussi de souligner le fait qu'il y a beaucoup de variations dans les distributions du monde réel, et qu'une statistique unique (médiane, moyenne, vous) soutiendrez rarement des déclarations larges et générales.

David C. Norris
la source