Quelle est la somme des variables t au carré?

20

Soit ti tiré iid d'une distribution de Student t avec degrés de liberté, pour taille moyenne (disons inférieure à 100). Définir est-il distribué presque comme un chi carré avec degrés de liberté? Existe-t-il quelque chose comme le théorème de la limite centrale pour la somme des variables aléatoires au carré?nn

T=1ikti2
Tk
shabbychef
la source
@suncoolsu: il dit "presque" ...
shabbychef
mes excuses. n'a pas vu ça.
suncoolsu

Réponses:

14

Répondre à la première question.

On pourrait partir du fait noté par mpiktas, que t2F(1,n) . Et puis essayez une étape plus simple dans un premier temps - recherchez la distribution d'une somme de deux variables aléatoires distribuées par . Cela pourrait se faire soit en calculant la convolution de deux variables aléatoires, soit en calculant le produit de leurs fonctions caractéristiques.F(1,n)

L' article de PCB Phillips montre que ma première estimation des «fonctions hypergéométriques [confluentes] impliquées» était en effet vraie. Cela signifie que la solution ne sera pas anodine et que la force brute est compliquée, mais condition nécessaire pour répondre à votre question. Donc, puisque est fixe et que vous résumez les distributions t, nous ne pouvons pas dire avec certitude quel sera le résultat final. Sauf si quelqu'un a une bonne habileté à jouer avec les produits des fonctions hypergéométriques confluentes.n

Dmitrij Celov
la source
2
+1 pour le lien, ne savait pas que la fonction caractéristique de la distribution F était si compliquée.
mpiktas
14

Ce n'est même pas une approximation rapprochée. Pour les petits n , l'espérance de T est égale à alors que l'espérance deχ2(k)est égale àk. Lorsquekest petit (moins de 10, disons), les histogrammes delog(T)et delog(χ2(k))n'ont même pas la même forme, ce qui indique que le décalage et le redimensionnementknn2χ2(k)kklog(T)log(χ2(k)) ne fonctionneront toujours pas.T

Intuitivement, pour de petits degrés de liberté Le de Student est à queue lourde. La quadrature accentue cette lourdeur. Les sommes seront donc plus asymétriques - généralement beaucoup plus asymétriques - que les sommes des normales au carré (le χ 2tχ2 distribution ). Les calculs et les simulations le confirment.


Illustration (comme demandé)

texte alternatif

Chaque histogramme représente une simulation indépendante de 100 000 essais avec les degrés de liberté ( ) et les sommets ( k ) spécifiés , normalisés comme décrit par @mpiktas. La valeur de n = 9999 sur la ligne du bas se rapproche du cas χ 2 . Ainsi, vous pouvez comparer T à χ 2 en parcourant chaque colonne.nkn=9999χ2Tχ2

Notez que la standardisation n'est pas possible pour car les moments appropriés n'existent même pas. Le manque de stabilité de la forme (lorsque vous numérisez de gauche à droite sur une ligne ou de haut en bas sur n'importe quelle colonne) est encore plus marqué pour n 4 .n<5n4

Whuber
la source
J'en avais peur, mais je pensais que la sommation apporterait un peu la queue.
shabbychef
J'ai aussi pensé à produire une sorte d'expériences Monte Carlo, essayant de voir pour quels et k l'approximation pourrait être assez proche de χ 2 ( k ) , probablement k ( n ) dont nous avons besoin ici. Mais pour les petits k et surtout les n ce sera en effet très lourd. Peut-être pourriez-vous ajouter ici ces deux histogrammes, juste pour les paresseux comme moi? nkχ2(k)k(n)kn
Dmitrij Celov
@Dmitrij Les simulations sont rapides (il faut plus de temps pour dessiner les histogrammes), j'en ai donc ajouté 12.
whuber
+1 pour la figure. Les illustrations sont toujours agréables à voir.
Dmitrij Celov
7

Je répondrai à la deuxième question. Le théorème central limite est pour toute séquence iid, au carré ou non au carré. Donc, dans votre cas, si est suffisamment grand, nous avonsk

TkE(t1)2kVar(t12)N(0,1)

et V a r ( t 2 1 ) sont respectivement la moyenne et la variance de la distribution au carré de Student t avec n degrés de liberté. Notez que t 2 1 est distribué comme distribution F avec 1 et n degrés de liberté. Nous pouvons donc saisir les formules de moyenne et de variance de la page wikipedia . Le résultat final est alors:Et12Var(t12)nt121n

Tknn2k2n2(n1)(n2)2(n4)N(0,1)

mpiktas
la source
1
T ^ 2 de Hotelling: (f - d + 1) / fd T ^ 2 ∼ F (d, f + 1 - d)
DWin
1
T2TT2
F(1,n)+F(1,n)
Je crois que cela se réduit à votre situation lorsque la matrice de variance est diagonale. Les éléments hors diagonale d'un échantillon doivent être proches de zéro si les échantillons proviennent de Normal, mais peuvent ne pas être exactement zéro s'ils proviennent de t. Néanmoins, vous avez demandé quelque chose d'approximatif, donc je pense que la réponse est probablement F sous cette réserve.
DWin
F(1,n)F