J'ai un échantillon de 250 unités. La distribution est asymétrique. Je veux tester une hypothèse selon laquelle la médiane de la population est différente de 3,5, donc je pense qu'un test à un échantillon serait approprié. Je sais que le test de classement de Wilcoxon n'est pas approprié car la distribution n'est pas symétrique. Un test de signalisation est-il approprié à utiliser? Si ce n'est pas le cas, quelqu'un peut-il recommander un autre test?
hypothesis-testing
median
LeonRupnik
la source
la source
Réponses:
Synopsis
Le nombre de données dépassant a une distribution binomiale avec une probabilité inconnue . Utilisez-le pour effectuer un test binomial de contre l'alternative .p p = 1 / 2 p ≠ 1 / 23,5 p p = 1 / deux p ≠ une / deux
Le reste de cet article explique le modèle sous-jacent et montre comment effectuer les calculs. Il fournit un
R
code de travail pour les exécuter. Un compte rendu détaillé de la théorie sous-jacente des tests d'hypothèses est fourni dans ma réponse à "Quelle est la signification des valeurs p et des valeurs t dans les tests statistiques?" .Le modèle statistique
En supposant que les valeurs sont raisonnablement diverses (avec peu de liens à ), alors sous votre hypothèse nulle, toute valeur échantillonnée au hasard a une chance de de dépasser (puisque est caractérisé comme la valeur moyenne de la population) . En supposant que les valeurs ont été échantillonnées au hasard et indépendamment, le nombre d'entre elles dépassant aura donc une distribution binomiale . Appelons ce nombre le «compte», .une / 2 = 50 % 3,5 3,5 250 3,5 ( 250 , une / 2 ) k3,5 1 / deux = 50 % 3,5 3,5 250 3,5 ( 250 , une / 2 ) k
D'un autre côté, si la médiane de la population diffère de , la probabilité d'une valeur échantillonnée au hasard supérieure à diffère de . Telle est l'hypothèse alternative.3,5 une / 23,5 3,5 1 / 2
Trouver un test adapté
La meilleure façon de distinguer la situation nulle de ses alternatives est de regarder les valeurs de qui sont les plus susceptibles sous le nul et moins susceptibles sous les alternatives. Ce sont des valeurs proches de sur , égales à . Ainsi, une région critique pour votre test est constituée de valeurs relativement éloignées de : proches de ou proches de . Mais à quelle distance de doivent-ils être pour constituer une preuve significative que n'est pas la médiane de la population?une / deux 250 125 125 0 250 125 3,5k 1 / 2 250 125 125 0 250 125 3,5
Cela dépend de votre norme de signification: c'est ce qu'on appelle la taille du test , souvent appelée . Dans l'hypothèse nulle, il devrait y avoir près - mais pas plus de - une chance que soit dans la région critique.α kα α k
D'ordinaire, lorsque nous n'avons aucune idée préconçue sur l'alternative qui s'applique - une médiane supérieure ou inférieure à nous essayons de construire la région critique de sorte qu'il y ait la moitié de cette chance, , que soit faible et que l'autre moitié, , que est élevé. Parce que nous connaissons la distribution de sous l'hypothèse nulle, cette information est suffisante pour déterminer la région critique.α / 2 k α / 2 k k3,5 α / 2 k α / 2 k k
Techniquement, il existe deux façons courantes d'effectuer le calcul: calculer les probabilités binomiales ou les approximer avec une distribution normale.
Calcul avec probabilités binomiales
Utilisez la fonction de point de pourcentage (quantile). Dans
R
, par exemple, ceci est appeléqbinom
et serait invoqué commeLa sortie pour estα = 0,05
Cela signifie que la région critique comprend toutes les faibles valeurs de entre (et y compris) et , ainsi que toutes les valeurs élevées de entre (et y compris) et . À titre de vérification, nous pouvons demander de calculer la chance qui se trouve dans cette région lorsque le zéro est vrai:0 109 k 141 250k 0 109 k 141 250
R
k
La sortie est , très proche de - mais pas supérieure à - lui même. Parce que la région critique doit se terminer à un nombre entier, il est généralement possible de faire de cette réelle taille de test égale exactement à la nominale taille de test α , mais dans ce cas , les deux valeurs sont très proches en effet.α0.0497 α α
Calcul avec l'approximation normale
R
Étant donné que les distributions normales sont symétriques, sa probabilité est également supérieure à . Par conséquent, la région critique se compose de valeurs de qui sont plus de écarts-types de . Calculez ces seuils: ils sont égaux à . Le calcul peut être effectué en un seul coup comme+ 1,95996 k 1,95996 125 125 ± 7,9 × 1,96 ≈ 109,5 , 140,50.05/2 +1.95996 k 1.95996 125 125±7.9×1.96≈109.5,140.5
Ce test, car il ne suppose rien sur la population (sauf qu'il n'a pas beaucoup de probabilités centrées directement sur sa médiane), n'est pas aussi puissant que d'autres tests qui font des hypothèses spécifiques sur la population. Si le test rejette néanmoins le nul, il n'y a pas lieu de s'inquiéter du manque de puissance. Sinon, vous devez faire des compromis délicats entre ce que vous êtes prêt à assumer et ce que vous pouvez conclure sur la population.
la source