Comment tester la médiane d'une population?

9

J'ai un échantillon de 250 unités. La distribution est asymétrique. Je veux tester une hypothèse selon laquelle la médiane de la population est différente de 3,5, donc je pense qu'un test à un échantillon serait approprié. Je sais que le test de classement de Wilcoxon n'est pas approprié car la distribution n'est pas symétrique. Un test de signalisation est-il approprié à utiliser? Si ce n'est pas le cas, quelqu'un peut-il recommander un autre test?

LeonRupnik
la source
3
Vous m'avez perdu en première ligne, pour plusieurs raisons. (1) Un échantillon ne peut pas avoir une distribution gaussienne (mais il peut en avoir approximativement une). (2) Une des caractéristiques de toutes les distributions gaussiennes (et donc de leurs approximations) est la symétrie . Vous vous êtes contredit. En décrivant vos données dans vos propres termes, plutôt que dans un jargon statistique, vous communiquerez mieux ce que vous avez. Pourriez-vous également expliquer, le plus clairement possible, ce que vous voulez vraiment accomplir avec vos données? Quel type d'information un «échantillon de test basé sur la médiane» est destiné à vous fournir?
whuber
1
La médiane de l'échantillon est quelle qu'elle soit; il ne serait pas nécessaire de tester cela. Peut-être voulez-vous tester si la médiane de la population (à partir de laquelle l'échantillon est obtenu) est égale à ? Dans l'affirmative, il est important de savoir comment la valeur de été développée. S'agit-il d'un résumé d'un autre ensemble de données, peut-être? Ou s'agit-il d'un nombre prédéterminé, comme une norme de qualité? 3,53.53.5
whuber
1
C'est un nombre prédéterminé
LeonRupnik
2
"La distribution est asymétrique donc je veux tester une hypothèse si la médiane d'une population est différente de 3,5 ..." - Pourquoi l'asymétrie dans un échantillon impacterait-elle quelle hypothèse est intéressante? " Un test de signe est-il approprié? " - bien sûr, mais (au moins dans sa forme originale) il repose sur la continuité - vous devez l'adapter si votre variable est discrète (vous ne dites pas en quoi consistent vos données de).
Glen_b -Reinstate Monica
Les données sont continues
LeonRupnik

Réponses:

8

Synopsis

Le nombre de données dépassant a une distribution binomiale avec une probabilité inconnue . Utilisez-le pour effectuer un test binomial de contre l'alternative .p p = 1 / 2 p 1 / 23.5pp=1/2p1/2

Le reste de cet article explique le modèle sous-jacent et montre comment effectuer les calculs. Il fournit un Rcode de travail pour les exécuter. Un compte rendu détaillé de la théorie sous-jacente des tests d'hypothèses est fourni dans ma réponse à "Quelle est la signification des valeurs p et des valeurs t dans les tests statistiques?" .

Le modèle statistique

En supposant que les valeurs sont raisonnablement diverses (avec peu de liens à ), alors sous votre hypothèse nulle, toute valeur échantillonnée au hasard a une chance de de dépasser (puisque est caractérisé comme la valeur moyenne de la population) . En supposant que les valeurs ont été échantillonnées au hasard et indépendamment, le nombre d'entre elles dépassant aura donc une distribution binomiale . Appelons ce nombre le «compte», .une / 2 = 50 % 3,5 3,5 250 3,5 ( 250 , une / 2 ) k3.51/2=50%3.53.52503.5(250,1/2)k

D'un autre côté, si la médiane de la population diffère de , la probabilité d'une valeur échantillonnée au hasard supérieure à diffère de . Telle est l'hypothèse alternative.3,5 une / 23.53.51/2

Trouver un test adapté

La meilleure façon de distinguer la situation nulle de ses alternatives est de regarder les valeurs de qui sont les plus susceptibles sous le nul et moins susceptibles sous les alternatives. Ce sont des valeurs proches de sur , égales à . Ainsi, une région critique pour votre test est constituée de valeurs relativement éloignées de : proches de ou proches de . Mais à quelle distance de doivent-ils être pour constituer une preuve significative que n'est pas la médiane de la population?une / deux 250 125 125 0 250 125 3,5k1/225012512502501253.5

Cela dépend de votre norme de signification: c'est ce qu'on appelle la taille du test , souvent appelée . Dans l'hypothèse nulle, il devrait y avoir près - mais pas plus de - une chance que soit dans la région critique.α kααk

D'ordinaire, lorsque nous n'avons aucune idée préconçue sur l'alternative qui s'applique - une médiane supérieure ou inférieure à nous essayons de construire la région critique de sorte qu'il y ait la moitié de cette chance, , que soit faible et que l'autre moitié, , que est élevé. Parce que nous connaissons la distribution de sous l'hypothèse nulle, cette information est suffisante pour déterminer la région critique.α / 2 k α / 2 k k3.5α/2kα/2kk

Techniquement, il existe deux façons courantes d'effectuer le calcul: calculer les probabilités binomiales ou les approximer avec une distribution normale.

Calcul avec probabilités binomiales

Utilisez la fonction de point de pourcentage (quantile). Dans R, par exemple, ceci est appelé qbinomet serait invoqué comme

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

La sortie pour estα=0.05

109 141

Cela signifie que la région critique comprend toutes les faibles valeurs de entre (et y compris) et , ainsi que toutes les valeurs élevées de entre (et y compris) et . À titre de vérification, nous pouvons demander de calculer la chance qui se trouve dans cette région lorsque le zéro est vrai:0 109 k 141 250k0109k141250Rk

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

La sortie est , très proche de - mais pas supérieure à - lui même. Parce que la région critique doit se terminer à un nombre entier, il est généralement possible de faire de cette réelle taille de test égale exactement à la nominale taille de test α , mais dans ce cas , les deux valeurs sont très proches en effet.α0.0497αα

Calcul avec l'approximation normale

(250,1/2)250×1/2=125250×1/2×(11/2)=250/4250/47.9α/2=0.05/21.95996R

qnorm(alpha/2)

Étant donné que les distributions normales sont symétriques, sa probabilité est également supérieure à . Par conséquent, la région critique se compose de valeurs de qui sont plus de écarts-types de . Calculez ces seuils: ils sont égaux à . Le calcul peut être effectué en un seul coup comme+ 1,95996 k 1,95996 125 125 ± 7,9 × 1,96 109,5 , 140,50.05/2+1.95996k1.95996125125±7.9×1.96109.5,140.5

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

k109141p1/20α1α


Ce test, car il ne suppose rien sur la population (sauf qu'il n'a pas beaucoup de probabilités centrées directement sur sa médiane), n'est pas aussi puissant que d'autres tests qui font des hypothèses spécifiques sur la population. Si le test rejette néanmoins le nul, il n'y a pas lieu de s'inquiéter du manque de puissance. Sinon, vous devez faire des compromis délicats entre ce que vous êtes prêt à assumer et ce que vous pouvez conclure sur la population.

whuber
la source
2
Comme il s'agit pratiquement d'un exemple concret de votre réponse plutôt "abstraite d'une valeur de p ", plus abstraite , non seulement en adoptant la même philosophie mais aussi dans la manière dont votre réponse est structurée, je pense que vous devriez la lier ("Un exemple de comment cela est appliqué dans la pratique se trouve dans ma réponse à ... ") dans la conclusion de votre réponse.
Silverfish
2
@Argent Merci; cela m'avait effectivement traversé l'esprit. J'ai pensé que je pourrais attendre un peu en premier. Entre autres choses, je ne serais pas surpris si un membre de la communauté entreprenant découvrait un fil en double, que je voudrais examiner de plus près. Après tout, c'est du matériel de base - de nombreuses questions ont été posées sur les tests binomiaux. La seule affirmation que celle-ci doit être nouvelle est qu'elle est arrivée ici comme un besoin d'un test d'une médiane - donc ce n'était pas si évidemment un test binomial au départ - et la seule affirmation que ma réponse doit être digne de la lecture réside dans ses efforts pour expliquer chaque étape.
whuber