Théorème central limite pour les médianes d'échantillon

55

Si je calcule la médiane d'un nombre suffisamment grand d'observations tirées de la même distribution, le théorème limite central énonce-t-il que la distribution des médianes se rapprochera d'une distribution normale? Si j'ai bien compris, cela est vrai avec les moyennes d'un grand nombre d'échantillons, mais est-ce aussi vrai avec les médianes?

Si non, quelle est la distribution sous-jacente des médianes de l'échantillon?

normal-distribution mathematical-statistics sampling median central-limit-theorem utilisateur1728853
la source

9

Vous avez besoin de certaines conditions de régularité pour que la médiane ait une distribution normale avec un redimensionnement à la limite. Pour voir ce qui peut mal se passer, considérons toute distribution sur un nombre fini de points, disons,

X

$X$ uniforme sur

{- 1, 0, 1}

$\{-1,0,1\}$ .

cardinal

5

Concernant les conditions de régularité: Si la distribution sous-jacente a une densité qui peut être différentiée à la médiane (vraie), la médiane de l'échantillon aura une distribution normale asymptotique avec une variance qui dépend dudit dérivé. Ceci est plus généralement valable pour les quantiles arbitraires.

cardinal

6

@ cardinal Je pense que vous avez besoin de conditions supplémentaires: lorsque la densité est une deuxième différentiabilité, est égale à zéro dans la médiane et y a une première dérivée, la distribution asymptotique de la médiane de l'échantillon sera bimodale.

whuber

4

@whuber: Oui, car la densité (et non sa dérivée comme je l'ai dit par inadvertance précédemment) entre dans la variance en tant que réciproque, la valeur de la densité à ce point ne doit pas être nulle. Toutes mes excuses pour avoir laissé tomber cette condition!

cardinal

4

Des contre élémentaires peuvent être créés en utilisant une distribution qui assigne probabilité de

1 / 2

$1/2$ à un intervalle

(- \infty, μ]

$(-\infty,\mu]$ et la probabilité

1 / 2

$1/2$ à

[μ + δ, \infty)

$[\mu+\delta,\infty)$ où

δ > 0,

$\delta\gt 0,$ tel qu'un Bernoulli

(1 / 2)

$(1/2)$ (

μ = 0, δ = 1

$\mu=0,\delta=1$ ). Les médianes des échantillons seront inférieures ou égales à

μ

$\mu$ aussi souvent qu'ils sont supérieurs ou égaux à

μ + δ

$\mu+\delta$ . Le risque que la médiane ne se trouve pas dans

(μ, μ + δ)

$(\mu,\mu+\delta)$ approche

0

$0$ pour les échantillons de grande taille, ce qui laisse effectivement un "intervalle" dans

(μ, μ + δ)

$(\mu,\mu+\delta)$ dans la distribution limite - qui sera alors évidemment non normale, peu importe comment il est normalisé.

whuber

39

Si vous travaillez en termes de variables indicatrices (c.-à-d. $Z_i = 1$ si $X_i \leq x$ et $0$ sinon), vous pouvez appliquer directement le théorème de la limite centrale à une moyenne de $Z$ , et en utilisant la méthode de Delta , changez-le en une distribution normale asymptotique pour $F_X^{-1}(\bar{Z})$ , qui signifie à son tour que vous obtenez la normalité asymptotique pour les quantiles fixes de $X$ .

Donc pas seulement la médiane, mais les quartiles, le 90e percentile, ... etc.

En gros, si nous parlons du $q$ ème échantillon quantile dans des échantillons suffisamment grands, nous obtenons qu’il aura approximativement une distribution normale avec la $q$ ème moyenne quantile de la population $x_q$ et la variance $q(1-q)/(nf_X(x_q)^2)$ .

Par conséquent , pour la médiane ( $q = 1/2$ ), la variance des échantillons de taille suffisante sera d'environ $1/(4nf_X(\tilde{\mu})^2)$ .

Bien sûr, il faut que toutes les conditions soient réunies afin que cela ne fonctionne pas dans toutes les situations, mais pour des distributions continues où la densité au niveau de la population est positive et différenciable, etc.

De plus, cela ne vaut pas pour les quantiles extrêmes, car le CLT ne fonctionne pas (la moyenne des Z ne sera pas asymptotiquement normale). Vous avez besoin d'une théorie différente pour les valeurs extrêmes.

Edit: la critique de whuber est correcte; cela fonctionnerait si $x$ était une médiane de population plutôt qu'un échantillon médian. L'argument doit être modifié pour fonctionner correctement.

Glen_b
la source

5

Je pense qu’il manque peut-être un élément logique à cette explication: comment exactement utiliser les indicateurs pour obtenir des échantillons de médianes? Je peux voir comment, lorsque

est la médiane sous - jacente , l'indicateur

fonctionnera: mais cet indicateur ne coïncide pas avec la médiane de l'échantillon ni avec une fonction de celui-ci.

x

$x$

X_{i} \leq x

$X_i\le x$

whuber

Comment passe-t-on des distributions normales asymptotiques pour

pour obtenir une normalité asymptotique pour des quantiles fixes de X? Edit: Je comprends, que

devient une valeur de pourcentage 0-100% donc les valeurs de quantiles sont asymptotiquement normales

F_{X}^{- 1} (\bar{Z})

$F^{−1}_X (\overline{Z})$

\bar{Z}

$\overline{Z}$

Adam

49

L'idée principale est que la distribution d'échantillonnage de la médiane est simple à exprimer en termes de fonction de distribution mais plus compliquée à exprimer en termes de valeur médiane. Une fois que nous comprenons comment la fonction de distribution peut ré-exprimer des valeurs sous forme de probabilités et inversement, il est facile de dériver la distribution d'échantillonnage exacte de la médiane. Une petite analyse du comportement de la fonction de distribution près de sa médiane est nécessaire pour montrer que cette fonction est asymptotiquement normale.

(La même analyse fonctionne pour la distribution d'échantillonnage de tout quantile, pas seulement de la médiane.)

Je ne ferai aucune tentative pour être rigoureux dans cet exposé, mais je le fais en suivant des étapes faciles à justifier de manière rigoureuse si vous avez l’intention de le faire.

Intuition

Voici des instantanés d’une boîte contenant 70 atomes d’un gaz atomique chaud:

Dans chaque image, j'ai trouvé un emplacement, représenté par une ligne verticale rouge, qui divise les atomes en deux groupes égaux entre la gauche (dessinée en points noirs) et la droite (en points blancs). C'est une médiane des positions: 35 atomes se situent à sa gauche et 35 à sa droite. Les médianes changent parce que les atomes se déplacent de manière aléatoire dans la boîte.

Nous sommes intéressés par la distribution de cette position intermédiaire. On répond à cette question en inversant ma procédure: dessinons d'abord une ligne verticale quelque part, par exemple à l'emplacement . Quelle est la probabilité que la moitié des atomes se trouve à gauche de et l'autre à droite? Les atomes à gauche individuellement avaient des chances que soit à gauche. Les atomes individuellement à droite ont des chances de pour être à droite. En supposant que leurs positions soient statistiquement indépendantes, les chances se multiplient, donnant $x$ $x$ $x$ $1-x$ $x^{35}(1-x)^{35}$ pour la chance de cette configuration particulière. Une configuration équivalente pourrait être obtenue pour une division différente des atomes en deux parties de éléments. L’ajout de ces chiffres pour toutes les divisions possibles donne une chance de $70$ $35$

Pr (x is a median) = C x^{n / 2} (1 - x)^{n / 2}

${\Pr}(x\text{ is a median}) = C x^{n/2} (1-x)^{n/2}$

où est le nombre total d'atomes et est proportionnel au nombre de divisions de atomes en deux sous-groupes égaux. $n$ $C$ $n$

Cette formule identifie la répartition de la valeur médiane en tant que Beta de distribution $(n/2+1, n/2+1)$ .

Maintenant, considérons une boîte avec une forme plus compliquée:

Encore une fois, les médianes varient. Parce que la case est basse près du centre, son volume y est peu volumineux: un petit changement dans le volume occupé par la moitié gauche des atomes (les noirs encore une fois) - ou, admettons-le, la zone située à gauche, comme indiqué sur ces figures, correspond à un changement relativement important de la position horizontale de la médiane. En fait, la surface sous-tendue par une petite section horizontale de la boîte étant proportionnelle à la hauteur , les modifications des médianes sont divisées par la hauteur de la boîte. Cela fait que la médiane est plus variable pour cette case que pour la case carrée, car celle-ci est beaucoup plus basse au milieu.

En bref, lorsque nous mesurons la position de la médiane en termes d’ aire (à gauche et à droite), l’analyse initiale (pour une case carrée) reste inchangée. La forme de la boîte ne complique la distribution que si nous insistons pour mesurer la médiane en fonction de sa position horizontale. Lorsque nous le faisons, la relation entre la représentation de la surface et la position est inversement proportionnelle à la hauteur de la boîte.

Il y a plus à apprendre de ces images. Il est clair que lorsque peu d’atomes sont dans (l’une ou l’autre) case, il y a plus de chance que la moitié d’entre eux se retrouvent accidentellement regroupés loin de l’un ou l’autre. À mesure que le nombre d'atomes augmente, le potentiel d'un déséquilibre aussi extrême diminue. Pour suivre cela, j'ai pris des "films" - une longue série de 5000 images - pour la boîte incurvée remplie de , puis de , puis de , et enfin de atomes, et noté les médianes. Voici les histogrammes des positions médianes: $3$ $15$ $75$ $375$

Clairement, pour un nombre suffisamment grand d'atomes, la distribution de leur position médiane commence à ressembler à une cloche et se rétrécit: cela ressemble à un résultat du théorème de la limite centrale, n'est-ce pas?

Résultats quantitatifs

La "boîte", bien sûr, décrit la densité de probabilité d'une distribution: son sommet est le graphique de la fonction de densité (PDF). Ainsi, les zones représentent des probabilités. Placer points de manière aléatoire et indépendante dans une boîte et observer leurs positions horizontales est un moyen de tirer un échantillon de la distribution. (C’est l’idée derrière l’ échantillonnage de rejet. ) $n$

La figure suivante relie ces idées.

Cela a l'air compliqué, mais c'est vraiment très simple. Il y a quatre parcelles liées ici:

Le graphique du haut montre le PDF d'une distribution avec un échantillon aléatoire de taille . Les valeurs supérieures à la médiane sont représentées par des points blancs; valeurs inférieures à la médiane en points noirs. Il n'a pas besoin d'une échelle verticale car nous savons que la surface totale est l'unité. $n$
Le graphique du milieu est la fonction de distribution cumulative pour la même distribution: il utilise la hauteur pour indiquer la probabilité. Il partage son axe horizontal avec la première parcelle. Son axe vertical doit aller de à car il représente des probabilités. $0$ $1$
Le graphique de gauche est destiné à être lu latéralement: c'est le PDF de la distribution Beta . Il montre comment la médiane dans la case variera lorsque la médiane est mesurée en termes de zones situées à gauche et à droite du milieu (plutôt que par sa position horizontale). J'ai dessiné points aléatoires à partir de ce PDF, comme indiqué, et les ai reliés par des lignes pointillées horizontales aux emplacements correspondants du CDF d'origine: c'est ainsi que les volumes (mesurés à gauche) sont convertis en positions (mesurées en haut, au centre). et graphiques du bas). Un de ces points correspond en fait à la médiane montrée dans le graphique du haut; J'ai tracé une ligne verticale continue pour montrer cela. $(n/2+1, n/2+1)$ $16$
Le graphique du bas représente la densité d'échantillonnage de la médiane, mesurée par sa position horizontale. Il est obtenu en convertissant la zone (dans le graphique de gauche) en position. La formule de conversion est donnée par l'inverse du CDF d'origine: c'est simplement la définition du CDF inverse! (En d'autres termes, le CDF convertit la position en une zone vers la gauche; le CDF inverse reconvertit une zone en une position.) J'ai tracé des lignes verticales en pointillés montrant comment les points aléatoires du tracé de gauche sont convertis en points aléatoires dans le tracé inférieur. . Ce processus de lecture à travers et ensuite vers le bas nous dit comment aller de zone en position.

Soit le CDF de la distribution originale (graphique du milieu) et le CDF de la distribution Beta. Pour trouver la chance que la médiane se trouve à gauche d'une position , utilisez d'abord pour obtenir l' aire située à gauche de dans la case: il s'agit de lui-même. La distribution bêta à gauche nous indique la probabilité que la moitié des atomes se trouvent dans ce volume, ce qui donne : il s'agit du CDF de la position médiane . Pour trouver son PDF (comme indiqué dans le graphique du bas), prenons le dérivé: $F$ $G$ $x$ $F$ $x$ $F(x)$ $G(F(x))$

\frac{d}{d x} G (F (x)) = G^{'} (F (x)) F^{'} (x) = g (F (x)) f (x)

$\frac{d}{dx}G(F(x)) = G'(F(x))F'(x) = g(F(x))f(x)$

où est le PDF (tracé du haut) et le PDF bêta (tracé de gauche). $f$ $g$

Ceci est une formule exacte pour la distribution de la médiane pour toute distribution continue. (Avec un peu de soin dans l'interprétation, il peut être appliqué à n'importe quelle distribution, continue ou non.)

Résultats asymptotiques

Lorsque est très grand et que n’a pas de saut à sa médiane, la médiane de l’échantillon doit varier de manière étroite autour de la vraie médiane de la distribution. En supposant également que le PDF soit continu près de , dans la formule précédente ne changera pas beaucoup de sa valeur à donnée par De plus, n’y changera pas grand-chose non plus: au premier ordre, $n$ $F$ $\mu$ $f$ $\mu$ $f(x)$ $\mu,$ $f(\mu).$ $F$

F (x) = F (μ + (x - μ)) \approx F (μ) + F^{'} (μ) (x - μ) = 1 / 2 + f (μ) (x - μ) .

$F(x) = F\left(\mu + (x-\mu)\right) \approx F(\mu) + F^\prime(\mu)(x-\mu) = 1/2 + f(\mu)(x-\mu).$

Ainsi, avec une approximation en constante amélioration à mesure que grandit, $n$

g (F (x)) f (x) \approx g (1 / 2 + f (μ) (x - μ)) f (μ) .

$g(F(x))f(x) \approx g\left(1/2 + f(\mu)(x-\mu)\right) f(\mu).$

Il s’agit simplement d’un déplacement de l’emplacement et de l’ampleur de la distribution bêta. Le redimensionnement par divisera sa variance par (qui aurait dû être non nul!). Incidemment, la variance de Beta est très proche de . $f(\mu)$ $f(\mu)^2$ $(n/2+1, n/2+1)$ $n/4$

Cette analyse peut être considérée comme une application de la méthode Delta .

Enfin, Bêta est approximativement normal pour grand . Il y a plusieurs façons de voir cela. Le plus simple est peut-être de regarder le logarithme de son PDF près de : $(n/2+1, n/2+1)$ $n$ $1/2$

\log (C (1 / 2 + x)^{n / 2} (1 / 2 - x)^{n / 2}) = \frac{n}{2} \log (1 - 4 x^{2}) + C^{'} = C^{'} - 2 n x^{2} + O (x^{4}) .

$\log\left(C(1/2 + x)^{n/2}(1/2-x)^{n/2}\right) = \frac{n}{2}\log\left(1-4x^2\right) + C' = C'-2nx^2 +O(x^4).$

(Les constantes et ne font que normaliser l'aire totale à l'unité.) Par le troisième ordre dans il s'agit alors du même journal que le journal du PDF normal avec la variance (Cet argument est rendu rigoureux en utilisant des fonctions générant des caractéristiques ou des cumulants au lieu du journal du PDF.) $C$ $C'$ $x,$ $1/(4n).$

En d'autres termes, nous concluons que

La distribution de la médiane de l’échantillon a une variance d’environ , $1/(4 n f(\mu)^2)$
et il est à peu près normal pour le grand , $n$
tous fournis à condition que le PDF soit continu et non nul à la médiane $f$ $\mu.$

whuber
la source

J'aime cette 4ème figure. L'avez-vous fait en utilisant R?

EngrStudent

@Engr J'aurais probablement pu en créer un similaire R, peut-être en utilisant layout, mais en fait, cela a été fait avec Mathematica 9.

whuber

1

C'est une chose de beauté.

EngrStudent

@whuber n'est-il pas bêta (n / 2 + 1, n / 2 + 1) inférieur à bêta (1,1) avant? Voir par exemple ine.pt/revstat/pdf/rs080204.pdf

Tim

1

@ Tim Je ne comprends pas la pertinence de la référence à un précédent, mais je vous remercie de souligner que le nom correct de la distribution bêta identifiée dans la section "Intuition" est Bêta . Je vais arranger ça partout où cela se produit (ce qui est à plusieurs endroits dans la discussion).

(n / 2 + 1, n / 2 + 1)

$(n/2+1,n/2+1)$

whuber

18

La réponse éclairante @EngrStudent nous indique que nous devrions nous attendre à des résultats différents lorsque la distribution est continue et discrète (les graphiques en "rouge", où la distribution asymptotique de la médiane de l'échantillon ne parvient pas à ressembler de façon spectaculaire à la normale, correspondent aux distributions. Binomial (3), géométrique (11), hypergéométrique (12), binôme négatif (14), Poisson (18), discret uniforme (22).

Et en effet c'est le cas. Lorsque la distribution est discrète, les choses se compliquent. Je fournirai la preuve pour le cas Absolutely Continuous, en ne faisant essentiellement que détailler la réponse déjà donnée par @Glen_b, puis je discuterai un peu de ce qui se passe lorsque la distribution est discrète, en fournissant également une référence récente à toute personne intéressée par la plongée. dans.

DISTRIBUTION ABSOLUMENT CONTINUE
Considérons une collection de variables aléatoires absolument continues avec une fonction de distribution (cdf) et une fonction de densité . Définissez où est la fonction indicatrice. Donc est une variable de Bernoulli, avec $\{X_1,...X_n\}$ $F_X(x) = P(X_i\le x)$ $F'_X(x)=f_X(x)$ $Z_i\equiv I\{X_i\le x\}$ $I\{\}$ $Z_i$

E (Z_{i}) = E (I {X_{i} \leq x}) = P (X_{i} \leq x) = F_{X} (x), Var (Z_{i}) = F_{X} (x) [1 - F_{X} (x)], \forall i

$E(Z_i) = E\left(I\{X_i\le x\}\right) = P(X_i\le x)=F_X(x),\;\; \text{Var}(Z_i) = F_X(x)[1-F_X(x)],\;\; \forall i$

Soit la moyenne d'échantillon de ces iid Bernoullis, définie pour fixe comme ce qui signifie que Le théorème de la limite centrale s'applique et nous avons $Y_n(x)$ $x$

Y_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} Z_{i}

$Y_n(x) = \frac 1n\sum_{i=1}^nZ_i$

E [Y_{n} (x)] = F_{X} (x), Var (Y_{n} (x)) = (1 / n) F_{X} (x) [1 - F_{X} (x)]

$E[Y_n(x)] = F_X(x),\;\; \text{Var}(Y_n(x)) = (1/n)F_X(x)[1-F_X(x)]$

\sqrt{n} (Y_{n} (x) - F_{X} (x)) \to_{d} N (0, F_{X} (x) [1 - F_{X} (x)])

$\sqrt n\Big(Y_n(x) - F_X(x)\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\right)$

Notez que c’est-à-dire autre chose que la fonction de distribution empirique. En appliquant la "méthode delta", nous obtenons cela pour une fonction continue et différentiable avec une dérivée non nulle au point d'intérêt, nous obtenons $Y_n(x) = \hat F_n(x)$ $g(t)$ $g'(t)$

\sqrt{n} (g [{\hat{F}}_{n} (x)] - g [F_{X} (x)]) \to_{d} N (0, F_{X} (x) [1 - F_{X} (x)] \cdot {(g^{'} [F_{X} (x)])}^{2})

$\sqrt n\Big(g[\hat F_n(x)] - g[F_X(x)]\Big) \rightarrow_d \mathbb N\left(0,F_X(x)[1-F_X(x)]\cdot\left(g'[F_X(x)]\right)^2\right)$

Maintenant, choisissez où désigne la fonction inverse. C'est une fonction continue et différentiable (puisque est), et par le théorème de la fonction inverse nous avons $g(t) \equiv F^{-1}_X(t),\;\; t\in (0,1)$ $^{-1}$ $F_X(x)$

g^{'} (t) = \frac{d}{d t} F_{X}^{- 1} (t) = \frac{1}{f_{x} (F_{X}^{- 1} (t))}

$g'(t)=\frac {d}{dt}F^{-1}_X(t) = \frac 1{f_x\left(F^{-1}_X(t)\right)}$

En insérant ces résultats sur dans le résultat asymptotique dérivé de la méthode delta, nous avons $g$

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (x)) - F_{X}^{- 1} (F_{X} (x))) \to_{d} N (0, \frac{F_{X} (x) [1 - F_{X} (x)]}{{[f_{x} (F_{X}^{- 1} (F_{X} (x)))]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - F^{-1}_X(F_X(x))\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x\left(F^{-1}_X(F_X(x))\right)\right]^2} \right)$

et simplifiant,

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (x)) - x) \to_{d} N (0, \frac{F_{X} (x) [1 - F_{X} (x)]}{{[f_{x} (x)]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(x)) - x\Big) \rightarrow_d \mathbb N\left(0,\frac {F_X(x)[1-F_X(x)]}{\left[f_x(x)\right]^2} \right)$

.. pour tout fixe . Définissez maintenant , la (vraie) médiane de la population. Alors nous avons et le résultat général ci-dessus devient, pour notre cas d’intérêt, $x$ $x=m$ $F_X(m) = 1/2$

\sqrt{n} (F_{X}^{- 1} ({\hat{F}}_{n} (m)) - m) \to_{d} N (0, \frac{1}{{[2 f_{x} (m)]}^{2}})

$\sqrt n\Big(F^{-1}_X(\hat F_n(m)) - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)$

Mais converge vers la médiane de l’échantillon . Ceci est dû au fait $F^{-1}_X(\hat F_n(m))$ $\hat m$

F_{X}^{- 1} ({\hat{F}}_{n} (m)) = inf {x : F_{X} (x) \geq {\hat{F}}_{n} (m)} = inf {x : F_{X} (x) \geq \frac{1}{n} \sum_{i = 1}^{n} I {X_{i} \leq m}}

$F^{-1}_X(\hat F_n(m)) = \inf\{x : F_X(x) \geq \hat F_n(m)\} = \inf\{x : F_X(x) \geq \frac 1n \sum_{i=1}^n I\{X_i\leq m\}\}$

La partie droite de l'inégalité converge vers et le plus petit pour lequel, finalement, , est la médiane de l'échantillon. $1/2$ $x$ $F_X \geq 1/2$

Donc on obtient

\sqrt{n} (\hat{m} - m) \to_{d} N (0, \frac{1}{{[2 f_{x} (m)]}^{2}})

$\sqrt n\Big(\hat m - m\Big) \rightarrow_d \mathbb N\left(0,\frac {1}{\left[2f_x(m)\right]^2} \right)$ qui est le centre Théorème limite pour la médiane de l'échantillon pour des distributions absolument continues.

DISTRIBUTIONS DISCRÈTES
Lorsque la distribution est discrète (ou lorsque l’échantillon contient des liens), il a été avancé que la définition "classique" des quantiles d’échantillon, et donc de la médiane également, pouvait être trompeuse au départ , car le concept théorique à utilisé pour mesurer ce que l’on tente de mesurer par quantiles.
Dans tous les cas, il a été simulé que, selon cette définition classique (celle que nous connaissons tous), la distribution asymptotique de la médiane de l’échantillon est non normale et discrète.

Une autre définition des échantillons quantiles consiste à utiliser le concept de fonction "moyenne distribution", défini comme suit:

F_{m i d} (x) = P (X \leq x) - \frac{1}{2} P (X = x)

$F_{mid}(x) = P(X\le x) - \frac 12P(X=x)$

La définition des quantiles d'échantillon à travers le concept de fonction de distribution médiane peut être considérée comme une généralisation pouvant couvrir, dans des cas particuliers, les distributions continues, mais également les distributions moins continues.

Pour le cas des distributions discrètes, entre autres résultats, il a été constaté que la médiane de l'échantillon telle que définie par ce concept présente une distribution asymptotiquement normale avec une ... variance élaborée.

La plupart sont des résultats récents. La référence est Ma, Y., Genton, MG et E. Parzen, E. (2011). Propriétés asymptotiques des quantiles d'échantillon de distributions discrètes. Annales de l'Institut de Mathématiques Statistiques, 63 (2), 227-243. , où l’on peut trouver une discussion et des liens vers la littérature pertinente la plus ancienne.

Alecos Papadopoulos
la source

2

(+1) Pour l'article. C'est une excellente réponse.

Alex Williams le

Pouvez-vous expliquer pourquoi converge vers la médiane de l’échantillon ?

F_{X}^{- 1} ({\hat{F}}_{n} (m))

$F^{-1}_X(\hat F_n(m))$

\hat{m}

$\hat m$

Kasa

Je sais que dans la distribution, mais je ne vois pas comment la médiane de l'échantillon est égale à

{\hat{F}}_{n} (m) \to F_{X} (m)

$\hat F_n(m) \to F_X(m)$

\hat{m}

$\hat m$

F_{X}^{- 1} ({\hat{F}}_{n} (m))

$F^{-1}_X(\hat F_n(m))$

kasa

1

@kasa j'ai élaboré un peu sur la question.

Alecos Papadopoulos

Je suis désolé de continuer à parler de cela. Mais le plus petit pour lequel finalement est la médiane de la population, pas la médiane de l’échantillon, n’est-ce pas?

x

$x$

F_{X} (x) \geq 1 / 2

$F_X(x) ≥ 1/2$

Kasa

10

Oui, et pas seulement pour la médiane, mais pour n’importe quel quantile. Copie de cet article , écrit par TS Ferguson, professeur à UCLA (sa page est ici ), qui traite de manière intéressante de la distribution conjointe d'échantillons de moyennes et d'échantillons, nous avons:

Soit soit iid avec fonction de distribution , densité , moyenne et variance finie . Soit et notons le ème quantile de , de sorte que . Supposons que la densité soit continue et positive à . Soit l'échantillon -th quantile. ensuite $X_1, . . . ,X_n$ $F(x)$ $f(x)$ $\mu$ $\sigma^2$ $0 < p < 1$ $x_p$ $p$ $F$ $F(x_p) = p$ $f(x)$ $x_p$ $Y_n = X_{(n:\lceil np\rceil)}$ $p$

\sqrt{n} (Y_{n} - x_{p}) \overset{d}{\to} N (0, p (1 - p) / (f (x_{p}))^{2})

$\sqrt n(Y_n − x_p) \xrightarrow{d} N(0, p(1 − p)/(f(x_p))^2)$

Pour (médiane), et vous avez le CLT pour les médianes, $p=1/2 \Rightarrow x_p=m$

\sqrt{n} (Y_{n} - m) \overset{d}{\to} N (0, [2 f (m)]^{- 2})

$\sqrt n(Y_n − m) \xrightarrow{d} N\left(0, [2f(m)]^{-2}\right)$

Alecos Papadopoulos
la source

1

Agréable. Il est à noter que la variance de la médiane de l'échantillon n'est pas aussi facile à estimer que celle de la moyenne de l'échantillon.

Michael M

@Alecos - comment avez-vous obtenu deux réponses à cette question?

EngrStudent

1

@EngrStudent Le système le permet, il vous demande simplement de vérifier que vous voulez bien ajouter une deuxième réponse.

Alecos Papadopoulos le

8

J'aime la réponse analytique donnée par Glen_b. C'est une bonne réponse.

Il faut une photo. J'aime les photos

Voici les zones d'élasticité dans une réponse à la question:

Il y a beaucoup de distributions dans le monde. Le kilométrage est susceptible de varier.
Suffisant a différentes significations. Pour un contre-exemple à une théorie, parfois, un seul contre-exemple est requis pour que "suffisant" soit rencontré. Pour démontrer les faibles taux de défauts en utilisant une incertitude binomiale, des centaines ou des milliers d'échantillons peuvent être nécessaires.

Pour une norme standard, j'ai utilisé le code MatLab suivant:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

et j'ai eu l'intrigue suivante comme sortie:

entrez la description de l'image ici

Alors, pourquoi ne pas le faire pour les quelque 22 autres distributions "intégrées", à l’exception des prob-plots (où ligne droite signifie très normal)?

entrez la description de l'image ici

Et voici le code source pour cela:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

Quand je vois la preuve analytique, je peux penser «en théorie, ils peuvent tous convenir», mais lorsque je l’essaye, je peux tempérer cela avec «il ya plusieurs façons que cela ne fonctionne pas si bien, impliquant souvent des contraintes discrètes ou très contraignantes. valeurs "et cela peut me donner envie de faire plus attention à l'application de la théorie à tout ce qui coûte de l'argent.

Bonne chance.

EngrStudent - Rétablir Monica
la source

Est-ce que je me trompe ou est-ce que la distribution pour laquelle la médiane n'est pas normalement distribuée est discrète?

SeF

Théorème central limite pour les médianes d'échantillon

Réponses:

Intuition

Résultats quantitatifs

Résultats asymptotiques