Ordonner les statistiques (par exemple, au minimum) d'une collection infinie de variables khi-deux?

11

C'est ma première fois ici, alors faites-moi savoir si je peux clarifier ma question de quelque manière que ce soit (y compris le formatage, les balises, etc.). (Et j'espère pouvoir éditer plus tard!) J'ai essayé de trouver des références, et j'ai essayé de me résoudre en utilisant l'induction, mais j'ai échoué dans les deux cas.

J'essaie de simplifier une distribution qui semble se réduire à une statistique d'ordre d'un ensemble infiniment dénombrable de variables aléatoires indépendantes avec différents degrés de liberté; en particulier, quelle est la distribution de la e plus petite valeur parmi les ?χ2mχ22,χ42,χ62,χ82,

Je serais intéressé par le cas particulier m=1 : quelle est la distribution du minimum de (indépendant) χ22,χ42,χ62, ?

Pour le cas du minimum, j'ai pu écrire la fonction de distribution cumulative (CDF) comme un produit infini, mais je ne peux pas le simplifier davantage. J'ai utilisé le fait que le CDF de χ2m2 est

F2m(x)=γ(m,x/2)/Γ(m)=γ(m,x/2)/(m1)!=1ex/2k=0m1xk/(2kk!).
(Avec m=1 , cela confirme le deuxième commentaire ci-dessous sur l'équivalence avec une distribution exponentielle avec l'espérance 2.) Le CDF du minimum peut alors être écrit comme = 1 - m = 1 ( e - x
Fmin(x)=1(1F2(x))(1F4(x))=1m=1(1F2m(x))
=1m=1(ex/2k=0m1xk2kk!).
Le premier terme du produit est simplement ex/2 , et le "dernier" terme estex/2k=0xk/(2kk!)=1 . Mais je ne sais pas (si possible?) Le simplifier à partir de là. Ou peut-être qu'une approche totalement différente est meilleure.

Un autre rappel potentiellement utile: χ22 est identique à une distribution exponentielle avec l'espérance 2, et χ42 est la somme de deux de ces exponentielles, etc.

Si quelqu'un est curieux, j'essaie de simplifier le théorème 1 dans cet article pour le cas de la régression sur une constante ( xi=1 pour tout i ). (J'ai χ2 au lieu des distributions Γ car j'ai multiplié par 2κ .)

David M Kaplan
la source
Est- ce que cela répond à votre question?
mpiktas
@mpiktas: merci pour la suggestion. C'est similaire, sauf qu'au lieu d'exponentielles avec des paramètres de taux différents, j'ai des chi-carrés avec différents degrés de liberté (et un nombre infini d'entre eux, pas fini). Et tandis que est une exponentielle, ne le sont pas; ce sont des sommes d'exponentielles, mais les sommes d'exponentielles ne sont pas elles-mêmes exponentielles. (Et idéalement, j'espère une statistique d'ordre général, bien que le min soit un bon début.) χ 2 4 , χ 2 6 , χ22χ42,χ62,
David M Kaplan
1
Je doute qu'il y ait un formulaire fermé pour cela. Il a cependant une curieuse caractérisation: lorsque sont iid Poisson ( ) varie, , alors est la chance que tous les . λ / 2 k = 1 , 2 , 1 - F m i n ( λ ) X kkXkλ/2k=1,2,1Fmin(λ)Xkk
whuber
1
@whuber: Ce n'est peut-être pas tout à fait aussi curieux en termes de processus de Poisson, qui est la formulation avec laquelle je jouais. Soit des variables aléatoires iid , avec le processus de Poisson correspondant de taux . Soit , , , etc. Ensuite, les sont indépendants et par la propriété stationnaire des incréments indépendants d'un processus de Poisson, avoir . E x p ( 1 / 2 ) N ( t ) : = sup { n : Σ n i = 1 T it } 1 / 2 U 1T1,T2,Exp(1/2)N(t):=sup{n:i=1nTit}1/2U 2 = T 2 + T 3 U 3 = T 4 + T 5 + TU1=T1U2=T2+T3UU3=T4+T5+T6 P ( U it ) = P ( N ( t ) i )Uiχ2i2P(Uit)=P(N(t)i)
Cardinal
@Cardinal Bien sûr: c'est une bonne façon de le voir. La curiosité n'est pas dans la relation entre Poissons et Gammas; cela réside dans la description de l'événement lui-même!
whuber

Réponses:

8

Les zéros du produit infini seront l'union des zéros des termes. Le calcul jusqu'au 20e trimestre montre la tendance générale:

tracé de zéros complexes

Ce tracé des zéros dans le plan complexe distingue les contributions des termes individuels dans le produit au moyen de symboles différents: à chaque étape, les courbes apparentes sont étendues davantage et une nouvelle courbe est lancée encore plus à gauche.

La complexité de cette image démontre qu'il n'existe pas de solution de forme fermée en termes de fonctions bien connues de l'analyse supérieure (telles que les gammas, les thétas, les fonctions hypergéométriques, etc., ainsi que les fonctions élémentaires, comme enquêté dans un texte classique comme Whittaker & Watson ).

Ainsi, le problème pourrait être posé de manière plus fructueuse un peu différemment : que devez-vous savoir sur les distributions des statistiques de commande? Des estimations de leurs fonctions caractéristiques? Des moments de faible ordre? Approximations aux quantiles? Autre chose?

whuber
la source
Pourquoi les zéros du produit sont-ils importants? Je sens que je manque quelque chose de trivial.
mpiktas
2
@mp Les zéros et les pôles montrent quelque chose sur la complexité de la fonction. Les fonctions rationnelles en ont un nombre fini. Les fonctions élémentaires ont généralement une ligne de zéros, comme à , intégrale, pour ; les fonctions "transcendantales" typiques ont des motifs de zéros légèrement plus complexes, comme par exemple tous les entiers non positifs (réciproques de la fonction Gamma) ou sur un réseau de points (fonctions thêta et fonctions elliptiques). Le schéma compliqué présenté ici suggère qu'il sera difficile, voire impossible, d'exprimer le CDF en termes de ces fonctions familières. n exp ( )2iπnnexp()
whuber
2
@whuber (1/2), merci! Je ne connaissais pas les différentes classes de fonctions ayant ces différents motifs de zéros dans le plan complexe; cela semble très utile, et votre graphique semble répondre à ma question (telle que posée).
David M Kaplan
@whuber (2/2), il s'agissait de vérifier un cas particulier de distribution (compliquée) d'un estimateur donné dans un autre article. Ils ont utilisé l'existence de la distribution pour justifier l'utilisation du bootstrap; mon conseiller m'a suggéré d'essayer d'approcher la distribution. Il semble que leur distribution pourrait être désactivée pour ce cas spécial (où je sais ce que cela devrait être), donc je vérifierai avec mon conseiller après sa date limite de subvention; mais potentiellement, je serais en train de prendre une expansion d'ordre supérieur de la ième ordre stat (divisé par ) que , dans un cadre plus compliqué. Publiera à nouveau si oui; Merci encore! m m mmm
David M Kaplan
4

quelle est la distribution du minimum de (indépendant) ?χ22,χ42,χ62,

Toutes mes excuses pour votre arrivée avec 6 ans de retard. Même si le PO est probablement passé à d'autres problèmes, la question reste fraîche et j'ai pensé que je pourrais suggérer une approche différente.


On nous donne où où avec le pdf :X iChisquared ( v i ) v i = 2 i f i ( x i )(X1,X2,X3,)XiChisquared(vi)vi=2ifi(xi)

entrez la description de l'image ici

Voici un tracé du du pdf correspondant , à mesure que la taille de l'échantillon augmente, pour :fi(xi)i=1 to 8

entrez la description de l'image ici

Nous nous intéressons à la distribution de .min(X1,X2,X3,)

Chaque fois que nous ajoutons un terme supplémentaire, le pdf du dernier terme marginal ajouté se déplace de plus en plus vers la droite, de sorte que l'effet de l'ajout de termes de plus en plus devient non seulement de moins en moins pertinent, mais après quelques termes seulement , devient presque négligeable - sur l'échantillon minimum. Cela signifie, en effet, que seul un très petit nombre de termes est susceptible d'avoir une importance réelle ... et l'ajout de termes supplémentaires (ou la présence d'un nombre infini de termes) est largement hors de propos pour le problème minimum de l'échantillon.

Tester

Pour tester cela, j'ai calculé le pdf de à 1 terme, 2 termes, 3 termes, 4 termes, 5 termes, 6 termes, 7 termes, 8 termes, à 9 termes et à 10 termes. Pour ce faire, j'ai utilisé la fonction de mathStatica , l'instruisant ici pour calculer le pdf de l'échantillon minimum (la statistique d'ordre ) dans un échantillon de taille , et où le paramètre (à la place d'être fixé) est :1 er j i v imin(X1,X2,X3,)OrderStatNonIdentical1stjivi

entrez la description de l'image ici entrez la description de l'image ici

Cela devient un peu compliqué à mesure que le nombre de termes augmente ... mais j'ai montré la sortie pour 1 terme (1ère ligne), 2 termes (deuxième ligne), 3 termes (3ème ligne) et 4 termes ci-dessus.

Le diagramme suivant compare le pdf de l'échantillon minimum à 1 terme (bleu), 2 termes (orange), 3 termes et 10 termes (rouge). Notez la similitude des résultats avec seulement 3 termes contre 10 termes: entrez la description de l'image ici

Le diagramme suivant compare 5 termes (bleu) et 10 termes (orange) - les graphiques sont tellement similaires qu'ils s'oblitèrent et on ne peut même pas voir la différence:

entrez la description de l'image ici

En d'autres termes, l'augmentation du nombre de termes de 5 à 10 n'a pratiquement aucun impact visuel perceptible sur la distribution de l'échantillon minimum.

Approximation semi-logistique

Enfin, une excellente approximation simple du pdf de l'échantillon min est la distribution semi-logistique avec pdf:

g(x)=2ex(ex+1)2 for x>0

Le diagramme suivant compare la solution exacte à 10 termes (qui ne se distingue pas de 5 ou 20 termes) et l'approximation semi-logistique (en pointillés):

entrez la description de l'image ici

L'augmentation à 20 termes ne fait aucune différence perceptible.

Wolfies
la source