J'ai une distribution d'échantillons avec un petit nombre de valeurs dans chacun (moins de ). J'ai calculé la médiane de chaque échantillon, que je veux comparer avec un modèle et obtenir la différence entre le modèle et la médiane de chaque échantillon. Pour avoir un résultat cohérent, j'ai besoin d'une erreur sur cette différence.
Il en résulte que trouver l'écart type dans un tel cas peut être assez difficile, au moins pour un non-pro comme moi (voir par exemple ici ).
J'ai trouvé ce site Web qui explique comment calculer les intervalles de confiance pour la médiane, même s'il n'y a aucune référence officielle citée.
Cela me semble raisonnable, mais je ne peux pas vraiment juger, alors je voudrais savoir:
- ces formules sont-elles correctes?
- Il y a une référence pour ça?
- Et si je veux trouver un IC différent de ?
Merci d'avance
EDIT: J'ai également trouvé cet exemple de bootstrap pour des données non gaussiennes . Maintenant, je ne sais pas grand chose sur le bootstrap, mais il serait bon d'avoir une adresse sur sa validité.
Réponses:
Sommaire
Lorsque vous pouvez supposer peu ou rien de la vraie loi de probabilité et en déduire peu - ce qui est le cas pour de petits échantillons de observations - alors une paire de statistiques d'ordre convenablement choisie constituera un intervalle de confiance pour la médiane. Les statistiques d'ordre à choisir peuvent être facilement trouvées avec une analyse rapide de la distribution binomiale . Il y a quelques choix à faire dans la pratique: ils sont discutés et illustrés à la fin de ce post.n (n,1/2)
Par ailleurs, la même analyse peut être utilisée pour construire des intervalles de confiance pour tout quantile (dont la médiane, correspondant à , est un exemple). La distribution binomiale régit la solution dans ce cas.q q=50% (n,q)
introduction
Rappelez-vous ce que signifie un intervalle de confiance (IC). Le cadre est un échantillon aléatoire indépendant avec chaque régie par la même distribution . On suppose seulement que est un élément d'un ensemble de distributions possibles. Chacun d'eux a une médiane . Pour tout fixe entre et , un CI de niveau est une paire de fonctions (aka "statistiques"), et , telles queX=(X1,X2,…,Xn) Xi F F Ω F1/2 α 0 1 α L U
Le côté droit est la couverture de la CI pour la distribution .F
En plus: pour que cela soit utile, nous préférons également que (1) l'infimum des couvertures sur soit aussi petit que possible et (2) la longueur attendue de l'intervalle, , devrait avoir tendance à être court pour tous ou "la plupart" .F∈Ω EF(U(X)−L(X)) F∈Ω
Une analyse
Supposons que nous n'assumions rien sur .Ω Dans cette situation, nous pouvons toujours exploiter les statistiques de commande . Ce sont les valeurs spécifiques de l'échantillon trié. Pour simplifier la notation, trions l'échantillon une fois pour toutes afin que
La valeur est la statistique d'ordre de l'échantillon. Puisque nous ne supposons rien sur , nous ne savons rien sur au début, donc nous ne pouvons pas en déduire beaucoup sur les intervalles probables entre chaque et son voisin . Cependant, nous pouvons encore raisonner quantitativement sur les valeurs individuelles: quelle est la chance que ne dépasse pas la médiane de ? Pour comprendre cela, soit une variable aléatoire régie par , et soitXi ith Ω F Xi Xi+1 Xi F Y F
la chance que ne dépasse pas la médiane de . Ensuite, lorsque nous savons (depuis ) que notre échantillon non ordonné d'origine de valeurs doit avoir contenu au moins valeurs ne dépassant pas .Y F Xi≤F1/2 X1≤⋯≤Xi≤F1/2 n i F1/2
Il s'agit d'un problème binomial. Formellement, si nous définissons la variable aléatoire à lorsque et sinon, ce qui précède montre que a une distribution de Bernoulli avec le paramètre . Un «succès» consiste à observer une valeur égale ou inférieure à la médiane. Par conséquent, est donné par la probabilité binomiale associée à moins de succès:Z 1 Y≤F1/2 0 Z πF Pr(Xi>F1/2) i
Vous avez probablement remarqué que . En fait, pour de nombreuses distributions, les deux valeurs sont égales: elles ne diffèrent que lorsque attribue une probabilité positive à la médiane . Pour analyser la différence, écrivez pour . Pour cela impliqueπF≥1/2 F F1/2 πF=1/2+ε ε≥0 2(j−1)≤n
Par conséquent, lorsque , on peut se débarrasser de la dépendance de la somme sur , au prix de remplacer l'égalité par une inégalité:2(i−1)≤n F
Exactement le même argument (appliqué en inversant les statistiques de commande) montre que lorsque ,2(i+1)≥n
Le côté droit se réduit à zéro chaque fois que (dans le premier cas) ou (dans le second). Par conséquent, il est toujours possible de trouver des index pour lesquelsi≤0 i≥n l≤u
Solution
C'est le complément de la condition définissant un intervalle de confiance, et donc équivalent à lui:
En sélectionnant pour faire du côté droit au moins , nous aurons trouvé une procédure d'intervalle de confiance dont le niveau est au moins .l≤u 1−α 1−α
En d'autres termes, lors du choix de ces indices et , en définissant et , l'intervalle sera un CI pour la médiane ayant une couverture au moins . Vous pouvez calculer sa couverture réelle en termes de probabilités binomiales. Cette couverture sera atteinte pour toute distribution qui attribue une probabilité nulle à (qui inclut toutes les distributions continues). Il sera dépassé par tout qui attribue une probabilité non nulle à .l u L(X)=Xl U(X)=Xu [L(X),U(X)] F1/2 1−α F F1/2 F F1/2
Discussion
À ce stade, nous avons quelques choix. Le plus courant est de rendre les limites symétriques en fixant raisonnablement proche de . En fait, en stipulant , les limites de confiance peuvent être trouvées pour tout avec une recherche rapide ou en appliquant la fonction quantile binomiale.u n+1−l u=n+1−l n
Par exemple, soit et (pour illustrer une procédure CI ). Comptons la partie inférieure de la distribution binomiale cumulative avec les paramètres et :n=10 α=10% 1−α=90% 10 1/2
(Ceci est une2 5.5% α/2 l=3 u=10+1−3=8 1−0.055−0.055=0.89 90% l=2 u=8 l=3 u=9 1−0.011−.055=0.935
R
commande et sa réponse.) Parce que la valeur à , égale à , est proche de , il est tentant de prendre et , pour alors la couverture sera de ce qui est proche de l'objectif de . Si vous devez atteindre la couverture souhaitée, vous devez prendre et ou et , les deux avec une couverture .Pour vérifier, simulons un grand nombre d'ensembles de données à partir de n'importe quelle distribution, calculons ces IC pour les ensembles de données et calculons la proportion d'IC qui couvrent la vraie médiane. Cet
R
exemple utilise une distribution normale:La sortie est
Les couvertures concordent étroitement avec les valeurs théoriques.
Comme autre exemple, tirons des échantillons d'une distribution discrète, comme un Poisson:
Cette fois, les couvertures sont beaucoup plus élevées que prévu. La raison en est qu'il y a chances qu'une valeur aléatoire soit égale à la médiane. Cela augmente considérablement les chances que l'IC couvre la médiane. Ce n'est ni un problème ni un paradoxe. Par définition, la couverture doit être d'au moins quelle que soit la distribution - mais il est possible (comme dans ce cas) que la couverture pour des distributions particulières soit sensiblement supérieure à .27% 1−α F 1−α
C'est là que réside le compromis: lorsque vous ne présumez rien de , l'IC basé sur les statistiques de commande est le seul que vous pouvez construire. Sa couverture pour votre vrai (mais inconnu) peut être un peu plus élevée que ce à quoi vous vous attendez. Cela signifie que votre CI sera plus large que si vous aviez fait des hypothèses fortes sur en limitant les possibilités de .F F Ω F
la source
Si vous souhaitez utiliser des méthodes numériques, vous pouvez générer une estimation de la distribution d'échantillonnage des médianes en utilisant le bootstrap. Rééchantillonnez votre échantillon à plusieurs reprises et calculez de nombreuses médianes. Le stdev de ces médianes sert d'estimation du stdev de la distribution d'échantillonnage des médianes. J'ai utilisé une méthode similaire pour calculer l'incertitude des résultats des parties d'échecs dans mon article sur les gambits d'échecs qui peut être trouvé ici https://sonoma.academia.edu/JamalMunshi/papers
la source