Erreur standard de la médiane

14

La formule suivante est-elle correcte si je veux mesurer l'erreur-type de la médiane dans le cas d'un petit échantillon avec une distribution non normale (j'utilise python)?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)
Marie
la source

Réponses:

12

Sur la base de certains des commentaires de @ mary, je pense que ce qui suit est approprié. Elle semble sélectionner la médiane car l'échantillon est petit.

Si vous sélectionnez la médiane parce que c'est un petit échantillon, ce n'est pas une bonne justification. Vous sélectionnez la médiane car la médiane est une valeur importante. Cela dit quelque chose de différent de la moyenne. Vous pouvez également le sélectionner pour certains calculs statistiques, car il est robuste contre certains problèmes tels que les valeurs aberrantes ou l'inclinaison. Cependant, la petite taille de l'échantillon n'est pas l'un de ces problèmes contre lesquels il est robuste. Par exemple, lorsque la taille de l'échantillon diminue, elle est en réalité beaucoup plus sensible à l'inclinaison que la moyenne.

John
la source
Merci John! En fait, j'ai choisi d'utiliser la médiane à la place de la moyenne pour la raison que vous venez d'écrire. J'ai différents échantillons, tous ayant une distribution non gaussienne. Il y a des échantillons contenant plus de 50 points, d'autres contenant moins de 10 points, mais pour tous, je pense que votre commentaire est valide, n'est-ce pas?
mary
Avec si peu de points, je ne suis pas sûr de ce que vous pouvez dire sur la distribution sous-jacente. Si vous comparez des échantillons contenant moins de 10 à des échantillons contenant 50 et que la distribution sous-jacente n'est pas symétrique, une médiane affichera un effet même s'il n'y en a pas car elle aura plus de biais dans le petit échantillon que dans le grand. La moyenne ne le fera pas.
John
À l'avenir, étoffez mieux vos questions et demandez-en plus sur ce que vous devez vraiment savoir. Dites pourquoi vous avez fait ce que vous avez fait jusqu'à présent et décrivez bien les données dont vous disposez. Vous obtiendrez de bien meilleures réponses.
John
1
«la petite taille de l'échantillon n'est pas un de ces problèmes contre lesquels il est robuste » vaut à lui seul un +1; le reste est un bonus
Glen_b -Reinstate Monica
En fait, Huber souligne dans son livre qu'il n'y a pas de concept unique de robustesse. Il y a une robustesse aux valeurs aberrantes (et c'est pour cela que la médiane est robuste). Un autre point de vue, cependant, est la robustesse à l'erreur de mesure, et c'est ce pour quoi la moyenne est robuste, car elle fait la moyenne de ces erreurs de mesure. Cependant, la médiane est très sensible aux fluctuations des erreurs de mesure, car elles peuvent affecter le milieu de la distribution tout aussi gravement que les queues.
StasK
12

Sokal et Rohlf donnent cette formule dans leur livre Biometry (page 139). Sous «Commentaires sur l'applicabilité», ils écrivent: Grands échantillons provenant de populations normales. J'ai donc peur que la réponse à votre question soit non. Voir aussi ici .

Une méthode pour obtenir l'erreur standard et les intervalles de confiance pour la médiane dans de petits échantillons avec des distributions non normales serait l' amorçage. Cet article fournit des liens vers des packages Python pour le démarrage.

avertissement

@whuber a souligné que le bootstrap de la médiane dans de petits échantillons n'est pas très informatif car les justifications du bootstrap sont asymptotiques (voir les commentaires ci-dessous).

COOLSerdash
la source
Merci pour votre réponse! Je sais que l'amorçage serait une alternative, je devinais juste s'il y avait un moyen de mesurer l'erreur de la médiane d'une manière différente. La réponse est-elle également non pour l'erreur-type sur le MEAN (même petit échantillon non gaussien)?
mary
@mary Pour l'erreur type de la moyenne, Sokal et Rohl écrivent qu'elle s'applique à "[...] toute population à variance finie". La réponse à l'erreur-type de la moyenne semble donc être oui, vous pouvez la calculer. Sidenote: Il existe cependant des distributions (par exemple la distribution de Cauchy) qui n'ont pas de variance ou de moyenne définie et dans de tels cas, le SEM ne peut pas être calculé.
COOLSerdash
5
tt
@whuber Merci pour votre commentaire. C'est bon à savoir. J'ai supprimé le conseil d'amorcer la médiane en petits échantillons de ma réponse.
COOLSerdash
1
Je n'essayais pas de suggérer que c'était un mauvais conseil: je voulais seulement souligner ses limites (inévitables). Il est difficile d'apprendre beaucoup de petits échantillons. Mais amorcer de petits échantillons est doublement lourd, car il n'y a aucune justification théorique pour le soutenir (toute la justification est asymptotique).
whuber
12

Le nombre magique 1,253 provient de la formule de variance asymptotique :

UNEs.Vuner.[m^]=14F(m)2n
m est la vraie médiane, et F(m) est la vraie densité à ce point.

Pour toute distribution autre que la normale (et Mary admet que cela est douteux dans ses données), vous auriez un facteur différent. Obtenir l'estimation médianem^n'est pas si grave, bien que vous puissiez commencer à vous tourmenter à propos des valeurs moyennes pour le nombre pair d'observations par rapport à l'inversion du cdf ou quelque chose comme ça. La valeur de densité pertinente peut être estimée par des estimateurs de densité de noyau , si nécessaire. Dans l'ensemble, cela est bien sûr relativement douteux car trois approximations sont faites:

  1. Que la formule asymptotique de variance fonctionne pour le petit échantillon;
  2. Que la médiane estimée est suffisamment proche de la vraie médiane;
  3. Que l'estimateur de densité du noyau donne une valeur précise.

Plus la taille de l'échantillon est faible, plus elle devient douteuse.

StasK
la source
3
Il vaut peut-être la peine d'ajouter que le nombre magique est π21.253314
Henry