Si je calcule la médiane d'un nombre suffisamment grand d'observations tirées de la même distribution, le théorème limite central énonce-t-il que la distribution des médianes se rapprochera d'une distribution normale? Si j'ai bien compris, cela est vrai avec les moyennes d'un grand nombre d'échantillons, mais est-ce aussi vrai avec les médianes?
Si non, quelle est la distribution sous-jacente des médianes de l'échantillon?
normal-distribution
mathematical-statistics
sampling
median
central-limit-theorem
utilisateur1728853
la source
la source
Réponses:
Si vous travaillez en termes de variables indicatrices (c.-à-d.Zi=1 si Xi≤x et 0 sinon), vous pouvez appliquer directement le théorème de la limite centrale à une moyenne de Z , et en utilisant la méthode de Delta , changez-le en une distribution normale asymptotique pour F−1X(Z¯) , qui signifie à son tour que vous obtenez la normalité asymptotique pour les quantiles fixes de X .
Donc pas seulement la médiane, mais les quartiles, le 90e percentile, ... etc.
En gros, si nous parlons duq ème échantillon quantile dans des échantillons suffisamment grands, nous obtenons qu’il aura approximativement une distribution normale avec la q ème moyenne quantile de la population xq et la variance q(1−q)/(nfX(xq)2) .
Par conséquent , pour la médiane (q=1/2 ), la variance des échantillons de taille suffisante sera d'environ 1/(4nfX(μ~)2) .
Bien sûr, il faut que toutes les conditions soient réunies afin que cela ne fonctionne pas dans toutes les situations, mais pour des distributions continues où la densité au niveau de la population est positive et différenciable, etc.
De plus, cela ne vaut pas pour les quantiles extrêmes, car le CLT ne fonctionne pas (la moyenne des Z ne sera pas asymptotiquement normale). Vous avez besoin d'une théorie différente pour les valeurs extrêmes.
Edit: la critique de whuber est correcte; cela fonctionnerait six était une médiane de population plutôt qu'un échantillon médian. L'argument doit être modifié pour fonctionner correctement.
la source
L'idée principale est que la distribution d'échantillonnage de la médiane est simple à exprimer en termes de fonction de distribution mais plus compliquée à exprimer en termes de valeur médiane. Une fois que nous comprenons comment la fonction de distribution peut ré-exprimer des valeurs sous forme de probabilités et inversement, il est facile de dériver la distribution d'échantillonnage exacte de la médiane. Une petite analyse du comportement de la fonction de distribution près de sa médiane est nécessaire pour montrer que cette fonction est asymptotiquement normale.
(La même analyse fonctionne pour la distribution d'échantillonnage de tout quantile, pas seulement de la médiane.)
Je ne ferai aucune tentative pour être rigoureux dans cet exposé, mais je le fais en suivant des étapes faciles à justifier de manière rigoureuse si vous avez l’intention de le faire.
Intuition
Voici des instantanés d’une boîte contenant 70 atomes d’un gaz atomique chaud:
Dans chaque image, j'ai trouvé un emplacement, représenté par une ligne verticale rouge, qui divise les atomes en deux groupes égaux entre la gauche (dessinée en points noirs) et la droite (en points blancs). C'est une médiane des positions: 35 atomes se situent à sa gauche et 35 à sa droite. Les médianes changent parce que les atomes se déplacent de manière aléatoire dans la boîte.
Nous sommes intéressés par la distribution de cette position intermédiaire. On répond à cette question en inversant ma procédure: dessinons d'abord une ligne verticale quelque part, par exemple à l'emplacement . Quelle est la probabilité que la moitié des atomes se trouve à gauche de x et l'autre à droite? Les atomes à gauche individuellement avaient des chances que x soit à gauche. Les atomes individuellement à droite ont des chances de 1 - x pour être à droite. En supposant que leurs positions soient statistiquement indépendantes, les chances se multiplient, donnant x 35 ( 1 - x ) 35x x x 1−x x35(1−x)35 pour la chance de cette configuration particulière. Une configuration équivalente pourrait être obtenue pour une division différente des atomes en deux parties de 35 éléments. L’ajout de ces chiffres pour toutes les divisions possibles donne une chance de70 35
où est le nombre total d'atomes et est proportionnel au nombre de divisions de atomes en deux sous-groupes égaux.C nn C n
Cette formule identifie la répartition de la valeur médiane en tant que Beta de distribution(n/2+1,n/2+1) .
Maintenant, considérons une boîte avec une forme plus compliquée:
Encore une fois, les médianes varient. Parce que la case est basse près du centre, son volume y est peu volumineux: un petit changement dans le volume occupé par la moitié gauche des atomes (les noirs encore une fois) - ou, admettons-le, la zone située à gauche, comme indiqué sur ces figures, correspond à un changement relativement important de la position horizontale de la médiane. En fait, la surface sous-tendue par une petite section horizontale de la boîte étant proportionnelle à la hauteur , les modifications des médianes sont divisées par la hauteur de la boîte. Cela fait que la médiane est plus variable pour cette case que pour la case carrée, car celle-ci est beaucoup plus basse au milieu.
En bref, lorsque nous mesurons la position de la médiane en termes d’ aire (à gauche et à droite), l’analyse initiale (pour une case carrée) reste inchangée. La forme de la boîte ne complique la distribution que si nous insistons pour mesurer la médiane en fonction de sa position horizontale. Lorsque nous le faisons, la relation entre la représentation de la surface et la position est inversement proportionnelle à la hauteur de la boîte.
Il y a plus à apprendre de ces images. Il est clair que lorsque peu d’atomes sont dans (l’une ou l’autre) case, il y a plus de chance que la moitié d’entre eux se retrouvent accidentellement regroupés loin de l’un ou l’autre. À mesure que le nombre d'atomes augmente, le potentiel d'un déséquilibre aussi extrême diminue. Pour suivre cela, j'ai pris des "films" - une longue série de 5000 images - pour la boîte incurvée remplie de , puis de , puis de , et enfin de atomes, et noté les médianes. Voici les histogrammes des positions médianes:15 75 3753 15 75 375
Clairement, pour un nombre suffisamment grand d'atomes, la distribution de leur position médiane commence à ressembler à une cloche et se rétrécit: cela ressemble à un résultat du théorème de la limite centrale, n'est-ce pas?
Résultats quantitatifs
La "boîte", bien sûr, décrit la densité de probabilité d'une distribution: son sommet est le graphique de la fonction de densité (PDF). Ainsi, les zones représentent des probabilités. Placer points de manière aléatoire et indépendante dans une boîte et observer leurs positions horizontales est un moyen de tirer un échantillon de la distribution. (C’est l’idée derrière l’ échantillonnage de rejet. )n
La figure suivante relie ces idées.
Cela a l'air compliqué, mais c'est vraiment très simple. Il y a quatre parcelles liées ici:
Le graphique du haut montre le PDF d'une distribution avec un échantillon aléatoire de taille . Les valeurs supérieures à la médiane sont représentées par des points blancs; valeurs inférieures à la médiane en points noirs. Il n'a pas besoin d'une échelle verticale car nous savons que la surface totale est l'unité.n
Le graphique du milieu est la fonction de distribution cumulative pour la même distribution: il utilise la hauteur pour indiquer la probabilité. Il partage son axe horizontal avec la première parcelle. Son axe vertical doit aller de à car il représente des probabilités.10 1
Le graphique de gauche est destiné à être lu latéralement: c'est le PDF de la distribution Beta . Il montre comment la médiane dans la case variera lorsque la médiane est mesurée en termes de zones situées à gauche et à droite du milieu (plutôt que par sa position horizontale). J'ai dessiné points aléatoires à partir de ce PDF, comme indiqué, et les ai reliés par des lignes pointillées horizontales aux emplacements correspondants du CDF d'origine: c'est ainsi que les volumes (mesurés à gauche) sont convertis en positions (mesurées en haut, au centre). et graphiques du bas). Un de ces points correspond en fait à la médiane montrée dans le graphique du haut; J'ai tracé une ligne verticale continue pour montrer cela.16(n/2+1,n/2+1) 16
Le graphique du bas représente la densité d'échantillonnage de la médiane, mesurée par sa position horizontale. Il est obtenu en convertissant la zone (dans le graphique de gauche) en position. La formule de conversion est donnée par l'inverse du CDF d'origine: c'est simplement la définition du CDF inverse! (En d'autres termes, le CDF convertit la position en une zone vers la gauche; le CDF inverse reconvertit une zone en une position.) J'ai tracé des lignes verticales en pointillés montrant comment les points aléatoires du tracé de gauche sont convertis en points aléatoires dans le tracé inférieur. . Ce processus de lecture à travers et ensuite vers le bas nous dit comment aller de zone en position.
Soit le CDF de la distribution originale (graphique du milieu) et le CDF de la distribution Beta. Pour trouver la chance que la médiane se trouve à gauche d'une position , utilisez d'abord pour obtenir l' aire située à gauche de dans la case: il s'agit de lui-même. La distribution bêta à gauche nous indique la probabilité que la moitié des atomes se trouvent dans ce volume, ce qui donne : il s'agit du CDF de la position médiane . Pour trouver son PDF (comme indiqué dans le graphique du bas), prenons le dérivé:F G x F x F(x) G(F(x))
où est le PDF (tracé du haut) et le PDF bêta (tracé de gauche).f g
Ceci est une formule exacte pour la distribution de la médiane pour toute distribution continue. (Avec un peu de soin dans l'interprétation, il peut être appliqué à n'importe quelle distribution, continue ou non.)
Résultats asymptotiques
Lorsque est très grand et que n’a pas de saut à sa médiane, la médiane de l’échantillon doit varier de manière étroite autour de la vraie médiane de la distribution. En supposant également que le PDF soit continu près de , dans la formule précédente ne changera pas beaucoup de sa valeur à donnée par De plus, n’y changera pas grand-chose non plus: au premier ordre,n F μ f μ f(x) μ, f(μ). F
Ainsi, avec une approximation en constante amélioration à mesure que grandit,n
Il s’agit simplement d’un déplacement de l’emplacement et de l’ampleur de la distribution bêta. Le redimensionnement par divisera sa variance par (qui aurait dû être non nul!). Incidemment, la variance de Beta est très proche de .f(μ) f(μ)2 (n/2+1,n/2+1) n/4
Cette analyse peut être considérée comme une application de la méthode Delta .
Enfin, Bêta est approximativement normal pour grand . Il y a plusieurs façons de voir cela. Le plus simple est peut-être de regarder le logarithme de son PDF près de :(n/2+1,n/2+1) n 1/2
(Les constantes et ne font que normaliser l'aire totale à l'unité.) Par le troisième ordre dans il s'agit alors du même journal que le journal du PDF normal avec la variance (Cet argument est rendu rigoureux en utilisant des fonctions générant des caractéristiques ou des cumulants au lieu du journal du PDF.)C C′ x, 1/(4n).
En d'autres termes, nous concluons que
La distribution de la médiane de l’échantillon a une variance d’environ ,1/(4nf(μ)2)
et il est à peu près normal pour le grand ,n
tous fournis à condition que le PDF soit continu et non nul à la médianef μ.
la source
R
, peut-être en utilisantlayout
, mais en fait, cela a été fait avec Mathematica 9.La réponse éclairante @EngrStudent nous indique que nous devrions nous attendre à des résultats différents lorsque la distribution est continue et discrète (les graphiques en "rouge", où la distribution asymptotique de la médiane de l'échantillon ne parvient pas à ressembler de façon spectaculaire à la normale, correspondent aux distributions. Binomial (3), géométrique (11), hypergéométrique (12), binôme négatif (14), Poisson (18), discret uniforme (22).
Et en effet c'est le cas. Lorsque la distribution est discrète, les choses se compliquent. Je fournirai la preuve pour le cas Absolutely Continuous, en ne faisant essentiellement que détailler la réponse déjà donnée par @Glen_b, puis je discuterai un peu de ce qui se passe lorsque la distribution est discrète, en fournissant également une référence récente à toute personne intéressée par la plongée. dans.
DISTRIBUTION ABSOLUMENT CONTINUE{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Considérons une collection de variables aléatoires absolument continues avec une fonction de distribution (cdf) et une fonction de densité . Définissez où est la fonction indicatrice. Donc est une variable de Bernoulli, avec
Soit la moyenne d'échantillon de ces iid Bernoullis, définie pour fixe comme ce qui signifie que Le théorème de la limite centrale s'applique et nous avonsYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Notez que c’est-à-dire autre chose que la fonction de distribution empirique. En appliquant la "méthode delta", nous obtenons cela pour une fonction continue et différentiable avec une dérivée non nulle au point d'intérêt, nous obtenonsYn(x)=F^n(x) g(t) g′(t)
Maintenant, choisissez où désigne la fonction inverse. C'est une fonction continue et différentiable (puisque est), et par le théorème de la fonction inverse nous avonsg(t)≡F−1X(t),t∈(0,1) −1 FX(x)
En insérant ces résultats sur dans le résultat asymptotique dérivé de la méthode delta, nous avonsg
et simplifiant,
.. pour tout fixe . Définissez maintenant , la (vraie) médiane de la population. Alors nous avons et le résultat général ci-dessus devient, pour notre cas d’intérêt,x x=m FX(m)=1/2
Mais converge vers la médiane de l’échantillon . Ceci est dû au faitF−1X(F^n(m)) m^
La partie droite de l'inégalité converge vers et le plus petit pour lequel, finalement, , est la médiane de l'échantillon.1/2 x FX≥1/2
Donc on obtient
DISTRIBUTIONS DISCRÈTES
Lorsque la distribution est discrète (ou lorsque l’échantillon contient des liens), il a été avancé que la définition "classique" des quantiles d’échantillon, et donc de la médiane également, pouvait être trompeuse au départ , car le concept théorique à utilisé pour mesurer ce que l’on tente de mesurer par quantiles.
Dans tous les cas, il a été simulé que, selon cette définition classique (celle que nous connaissons tous), la distribution asymptotique de la médiane de l’échantillon est non normale et discrète.
Une autre définition des échantillons quantiles consiste à utiliser le concept de fonction "moyenne distribution", défini comme suit:Fmid(x)=P(X≤x)−12P(X=x)
La définition des quantiles d'échantillon à travers le concept de fonction de distribution médiane peut être considérée comme une généralisation pouvant couvrir, dans des cas particuliers, les distributions continues, mais également les distributions moins continues.
Pour le cas des distributions discrètes, entre autres résultats, il a été constaté que la médiane de l'échantillon telle que définie par ce concept présente une distribution asymptotiquement normale avec une ... variance élaborée.
La plupart sont des résultats récents. La référence est Ma, Y., Genton, MG et E. Parzen, E. (2011). Propriétés asymptotiques des quantiles d'échantillon de distributions discrètes. Annales de l'Institut de Mathématiques Statistiques, 63 (2), 227-243. , où l’on peut trouver une discussion et des liens vers la littérature pertinente la plus ancienne.
la source
Oui, et pas seulement pour la médiane, mais pour n’importe quel quantile. Copie de cet article , écrit par TS Ferguson, professeur à UCLA (sa page est ici ), qui traite de manière intéressante de la distribution conjointe d'échantillons de moyennes et d'échantillons, nous avons:
Soit soit iid avec fonction de distribution , densité , moyenne et variance finie . Soit et notons le ème quantile de , de sorte que . Supposons que la densité soit continue et positive à . Soit l'échantillon -th quantile. ensuiteX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Pour (médiane), et vous avez le CLT pour les médianes,p=1/2⇒xp=m
la source
J'aime la réponse analytique donnée par Glen_b. C'est une bonne réponse.
Il faut une photo. J'aime les photos
Voici les zones d'élasticité dans une réponse à la question:
Pour une norme standard, j'ai utilisé le code MatLab suivant:
et j'ai eu l'intrigue suivante comme sortie:
Alors, pourquoi ne pas le faire pour les quelque 22 autres distributions "intégrées", à l’exception des prob-plots (où ligne droite signifie très normal)?
Et voici le code source pour cela:
Quand je vois la preuve analytique, je peux penser «en théorie, ils peuvent tous convenir», mais lorsque je l’essaye, je peux tempérer cela avec «il ya plusieurs façons que cela ne fonctionne pas si bien, impliquant souvent des contraintes discrètes ou très contraignantes. valeurs "et cela peut me donner envie de faire plus attention à l'application de la théorie à tout ce qui coûte de l'argent.
Bonne chance.
la source