Classes de distributions fermées sous maximum

11

Soit une classe de distributions de probabilités sur des réels non négatifs paramétrés par , de sorte que Je me demande quelles classes de distributions connues sont fermées en prenant le maximum et, ie si et sont indépendants alors .Qpp

Qp([0,))=1.
X1Qp1X2Qp2max(X1,X2)Qp3
Il y a
la source
2
Cherchez-vous une caractérisation mathématique de telles classes ou demandez-vous laquelle des familles paramétriques de distributions généralement connues peut avoir cette propriété?
whuber
@whuber Les trois types de valeurs extrêmes fonctionnent selon l'argument que j'ai donné ci-dessous. Je ne montre cependant pas qu'ils sont les seuls.
Michael R. Chernick
Le powerpoint de Stoev que Whuber cite montre le résultat que j'ai donné pour ces distributions que llya a décrites qui sont appelées maxi-stables et le théorème cité dans la présentation déclare en outre qu'elles sont les seules.
Michael R. Chernick
@Michael Avez-vous remarqué la restriction aux valeurs non négatives dans la question? Cela exclut les distributions de valeurs extrêmes ayant un support positif sur les réels négatifs.
whuber

Réponses:

12

Il me semble que proposer des distributions de valeurs extrêmes répond vraiment à une question différente. Je démontrerai qu'en abordant cette question directement et en la montrant, elle conduit à des distributions qui ne font pas partie des types de valeurs extrêmes.

Examinons cela à partir des premiers principes. Il est immédiat, à partir des axiomes de probabilité et de définition du CDF, que la distribution du maximum de deux variables aléatoires indépendantes avec les CDF et a pour son CDF. Supposons qu'il existe une classe de distributions fermée sous le maximum par paire; C'est,F1F2F1F2Ω={Fθ}

FθΩ, FϕΩ implies FθFϕΩ.

Il est pratique de prendre des logarithmes, en étendant (comme dans les textes d'analyse avancés de Rudin) les nombres réels pour inclure comme le log de . Les journaux de CDF de variables aléatoires essentiellement pris en charge sur sont (i) mononotiquement non croissants, (ii) égaux à sur , (iii) ont des limites droites de , et ( iv) sont cadlag. De ce point de vue, doit être un sous-ensemble convexe d'un cône dans l'espace des fonctions cadlag sur . Pour qu'il soit paramétré de manière finie, ce cône doit générer un sous-espace vectoriel de dimension finie. Cela laisse encore beaucoup de possibilités.0[0,)(,0)0ΩR

Certaines de ces possibilités sont bien connues. Considérons, par exemple, le CDF d'une variable uniforme sur . Son CDF est égal à sur , lorsque et sur . Le cône qu'il génère est l'ensemble des CDF de la forme[0,1]0(,0]x0x11[1,)

Fθ(x)=exp(θlog(x))=xθ,0<x<1

paramétré par . Il est clair que le maximum de deux variables aléatoires indépendantes avec des distributions dans cette famille a également une distribution dans cette famille (leurs paramètres s'ajoutent simplement). Nous pouvons, si nous le souhaitons, nous limiter à un sous-ensemble convexe de la forme et ont toujours une famille fermée au maximum. Notez, s'il vous plaît, qu'aucun membre de cette famille n'est une distribution de valeur extrême.θ>0{Fθ|θθ0}

Cette formulation inclut des distributions discrètes (qui ne font évidemment pas partie des trois types de distributions de valeurs extrêmes). Par exemple, considérons les distributions prises en charge sur les nombres naturels pour lesquels les probabilités sont données par0,1,2,,k,

Prθ(k)=θ1/(k+1)θ1/k

(en prenant lorsque ), paramétré par . Par construction, le CDF , d'où il suitθ1/k=0k=00<θ<1Fθ(k)=θ1/(k+1)

Fθ(k)Fϕ(k)=θ1/(k+1)ϕ1/(k+1)=(θϕ)1/(k+1),

et parce que les hypothèses impliquent , cela montre que la famille est fermée sous des maxima par paires.0<θϕ<1

J'espère que cette analyse et ces deux exemples montrent que, contrairement à une opinion exprimée dans un commentaire, l'approche de partir d'un nombre fini de CDF bien choisis et de les fermer par rapport au maximum par paire (c'est-à-dire former leurs cônes dans un espace vectoriel connexe approprié) est non seulement constructif mais donne des classes de distributions intéressantes et potentiellement utiles.

whuber
la source
3
+1 pour cette analyse et vérification de l'interprétation des distributions de valeurs extrêmes.
1
@whuber: merci beaucoup pour l'attention portée à ce problème, je ne m'attendais vraiment pas à tant de bonnes réponses (et je saluerai tous ceux qui ont répondu). La construction du cône (ou semi-groupe) que vous avez donnée est en effet vraie: si est une famille de distributions, sa fermeture (wrt ) a tous les éléments de la forme où et . Malheureusement, j'ai réalisé que la fermeture par rapport au décalage est également nécessaire (c'est-à-dire si alors ). Dois-je poser une nouvelle question à ce sujet? Fθmax(Fθ1α1××Fθnαn)αi0nNF(x)ΩF(xa)Ω
Ilya
1
C'est certainement une complication, Ilya. Mais avant de changer quoi que ce soit ou de poster une nouvelle question, veuillez réfléchir à la façon dont vous conciliez l'exigence de fermeture de quart avec l'exigence (apparemment contradictoire) que toutes les variables ont un support non négatif! (Je suppose que vous devrez restreindre les valeurs possibles de .)a
whuber
Pas lié à cette question, mais à la recherche d'exemples de familles stables sous produit.
Vincent Granville
1
@Vincent Pour commencer, considérez n'importe quelle famille de variables aléatoires fermées additivement et exponentiez-les. Pour une famille plus riche, multipliez l'une de ces variables par une variable indépendante de Rademacher (en obtenant des variables prises en charge sur toute la ligne réelle plutôt que seulement les nombres positifs). U
whuber
10

Remarque: Cette réponse suppose que les variables sont distribuées de manière identique , et pas seulement réparties selon la même classe.

Ce seraient les distributions de valeurs extrêmes . Il y en a trois, comme ils sont généralement présentés, correspondant à trois ensembles de conditions sur la distribution sous-jacente pour lesquelles la distribution limite du maximum est trouvée. Ils sont fermés sous trouver le maximum, c'est ce que vous voulez.

Copie plus ou moins d'une ancienne version des méthodes d'analyse statistique des données de fiabilité et de vie (Mann, Schafer, Singpurwalla),

Tapez I: FX(n)(x)=exp{exp[xγα]}, <x<, α>0

Type II: FX(n)(x)=exp{(xγα)β}, xγ, α,β>0

Type III: FX(n)(x)=exp{[(xγα)β]}. xγ, α,β>0

Edit: Lisez les commentaires, qui étendent cette réponse pour apporter une réponse grandement améliorée et plus complète à cette question!

jbowman
la source
3
+1 Mais les types I et III ne s'appliquent pas à la question.
whuber
Tout à fait vrai (+1), je répondais à une question plus générale sans expliquer la différence. De plus, j'aurais dû décrire la normalisation qui doit se produire afin de prévenir la dégénérescence, comme vous l'avez fait dans votre commentaire à la réponse de MC ci-dessous. Apprenez-moi à écrire ces réponses quand je suis sur le point de sortir! (enfin, peut-être pas ... :)
jbowman
1
@whuber je demande probablement quelque chose d'évident mais, est-il vrai que si et et qu'ils sont indépendants, alors ? X1Frechet(α1,β1)X2Frechet(α2,β2)max(X1,X2)Frechet(α3,β3)
2
C'est une excellente question, @Procrastinator. Je ne pouvais penser à aucune raison pour laquelle un tel résultat devrait être vrai, j'ai donc simulé 1 000 000 de valeurs iid de Frechet et 1 000 000 de valeurs iid de Frechet et calculé leurs maxima par paire. Les résultats ne peuvent être ajustés - pas même approximativement - par aucune distribution Frechet . Vous avez besoin des trois paramètres (y compris le paramètre d'emplacement) pour fermer cette famille sous maxima. Ensuite - en émulant un argument (incomplet) dans la réponse de Michael Chernick - vous pouvez montrer que doit être décalé Frechet. (3,1)(10,1)(α,β)max(X1,X2)
whuber
Cette réponse est incorrecte. Le théorème des valeurs extrêmes s'applique lorsque les distributions des variables sont identiques , mais la question dit qu'elles ne doivent appartenir qu'à la même classe (elles peuvent avoir des paramètres différents).
user76284
0

jbowman m'a battu à la réponse. Une explication de la raison pour laquelle ils fonctionnent est que le théorème de Gnedenko déclare que si est une séquence de variables aléatoires indépendantes distribuées de manière identique sous certaines conditions à la fin de la distribution converge vers 1 des trois types que jbowman a énumérés dans sa réponse. Maintenant, comme toute distribution de type I, de type II ou de type III peut être exprimée comme la limite du max d'une séquence iid, alors si est de type I et est la distribution limite de car tend vers l'infini et est également de type I et est la limite deX1,,XnnMn=max(X1,X2,,Xn)G1Mn=max(X1,X2,,Xn)nG2Nn=max(Y1,Y2,dotsc,Yn)alors dites et est la distribution de la limite lorsque approche de l'infini pour alors sera de type I et sera la distribution pour le maximum d'un rv avec la distribution et un autre avec la distribution et par conséquent, le type I est fermé sous maximisation. Le même argument fonctionne pour le type II et le type III.Vn=max(Mn,Nn)G3nVnG3G1G2

Michael R. Chernick
la source
2
Pour les distributions illimitées, le maximum ne converge pas: il diverge avec . Comme pour le CLT, une normalisation appropriée est requise. (C'est pourquoi il est essentiel d'inclure les paramètres de localisation et d'échelle dans ces familles.) L'article classique de Gnedenko sur le sujet commence (si je me souviens bien) en demandant si une série de coefficients affines peut être trouvée de telle sorte converge. Après avoir établi cela, il obtient alors les formes possibles de distribution limitante. nan,bnaMn+bn
whuber
Dans tous les cas, j'aurais dû dire correctement normalisé. Merci. Même dans le cas borné, vous devez normaliser pour obtenir la limite (je pense que je devrais m'en souvenir, ma thèse était à l'extrême! Mais il y a 34 ans)
Michael R. Chernick
3
Notez également que les distributions de valeurs extrêmes ne répondent pas de manière exhaustive à la question. (Ce n'est pas une critique, c'est juste une observation.) Par exemple, en restreignant aux nombres naturels, nous pouvons définir comme la distribution uniforme sur . Cette classe est fermée sous le maximum ( ), mais aucun de ses membres n'est une distribution de valeur extrême. pQp[p,p+1]max(Qp,Qr)Qmax(p,r)
whuber
@whuber les trois types sont des cas non bornés mais le type à queue courte III comprend des cas bornés comme la distribution uniforme. Pour U [0,1], P [Mn <= 1-x / n] converge vers exp (-x) puisque P [Mn <= 1-x / n] = (1-x / n) ^ n.
Michael R. Chernick
3
Vos réponses ne semblent pas pertinentes dans l'exemple que j'ai donné, Michael. La distinction est que cette question ne concerne pas les séquences dénombrables de variables iid ou même les séquences dénombrables de quoi que ce soit; il s'agit uniquement de la fermeture sous des paires de variables qui ont généralement des distributions différentes . (Mais maintenant je vois qu'il y a une faille dans mon exemple: le maximum lorsque n'est plus uniforme, donc je devrais agrandir la famille de manière appropriée pour inclure des maxima arbitrairement de nombreux uniformes iid.)p=r
whuber