Quelle est la somme des variables t au carré?

Soit $t_i$ tiré iid d'une distribution de Student t avec degrés de liberté, pour taille moyenne (disons inférieure à 100). Définir est-il distribué presque comme un chi carré avec degrés de liberté? Existe-t-il quelque chose comme le théorème de la limite centrale pour la somme des variables aléatoires au carré? $n$ $n$

T = \sum_{1 \leq i \leq k} t_{i}^{2}

$T = \sum_{1\le i \le k} t_i^2$

T

$T$

k

$k$

chi-squared central-limit-theorem t-distribution shabbychef
la source

@suncoolsu: il dit "presque" ...

shabbychef

mes excuses. n'a pas vu ça.

suncoolsu

Réponses:

Répondre à la première question.

On pourrait partir du fait noté par mpiktas, que $t^2 \sim F(1, n)$ . Et puis essayez une étape plus simple dans un premier temps - recherchez la distribution d'une somme de deux variables aléatoires distribuées par . Cela pourrait se faire soit en calculant la convolution de deux variables aléatoires, soit en calculant le produit de leurs fonctions caractéristiques. $F(1,n)$

L' article de PCB Phillips montre que ma première estimation des «fonctions hypergéométriques [confluentes] impliquées» était en effet vraie. Cela signifie que la solution ne sera pas anodine et que la force brute est compliquée, mais condition nécessaire pour répondre à votre question. Donc, puisque est fixe et que vous résumez les distributions t, nous ne pouvons pas dire avec certitude quel sera le résultat final. Sauf si quelqu'un a une bonne habileté à jouer avec les produits des fonctions hypergéométriques confluentes. $n$

Dmitrij Celov
la source

+1 pour le lien, ne savait pas que la fonction caractéristique de la distribution F était si compliquée.

mpiktas

Ce n'est même pas une approximation rapprochée. Pour les petits $n$ , l'espérance de $T$ est égale à alors que l'espérance deest égale à. Lorsqueest petit (moins de 10, disons), les histogrammes deet den'ont même pas la même forme, ce qui indique que le décalage et le redimensionnement $\frac{k n}{n-2}$ $\chi^2(k)$ $k$ $k$ $\log(T)$ $\log(\chi^2(k))$ ne fonctionneront toujours pas. $T$

Intuitivement, pour de petits degrés de liberté Le de Student est à queue lourde. La quadrature accentue cette lourdeur. Les sommes seront donc plus asymétriques - généralement beaucoup plus asymétriques - que les sommes des normales au carré (le $t$ $\chi^2$ distribution ). Les calculs et les simulations le confirment.

Illustration (comme demandé)

texte alternatif

Chaque histogramme représente une simulation indépendante de 100 000 essais avec les degrés de liberté ( ) et les sommets ( ) spécifiés , normalisés comme décrit par @mpiktas. La valeur de sur la ligne du bas se rapproche du cas . Ainsi, vous pouvez comparer à en parcourant chaque colonne. $n$ $k$ $n=9999$ $\chi^2$ $T$ $\chi^2$

Notez que la standardisation n'est pas possible pour car les moments appropriés n'existent même pas. Le manque de stabilité de la forme (lorsque vous numérisez de gauche à droite sur une ligne ou de haut en bas sur n'importe quelle colonne) est encore plus marqué pour . $n \lt 5$ $n \le 4$

Whuber
la source

J'en avais peur, mais je pensais que la sommation apporterait un peu la queue.

shabbychef

J'ai aussi pensé à produire une sorte d'expériences Monte Carlo, essayant de voir pour quels

l'approximation pourrait être assez proche de

, probablement

dont nous avons besoin ici. Mais pour les petits

et surtout les

ce sera en effet très lourd. Peut-être pourriez-vous ajouter ici ces deux histogrammes, juste pour les paresseux comme moi?

n

$n$

k

$k$

χ^{2} (k)

$\chi^2(k)$

k (n)

$k(n)$

k

$k$

n

$n$

Dmitrij Celov

@Dmitrij Les simulations sont rapides (il faut plus de temps pour dessiner les histogrammes), j'en ai donc ajouté 12.

whuber

+1 pour la figure. Les illustrations sont toujours agréables à voir.

Dmitrij Celov

Je répondrai à la deuxième question. Le théorème central limite est pour toute séquence iid, au carré ou non au carré. Donc, dans votre cas, si est suffisamment grand, nous avons $k$

$\dfrac{T-kE(t_1)^2}{\sqrt{kVar(t_1^2)}}\sim N(0,1)$

où et sont respectivement la moyenne et la variance de la distribution au carré de Student t avec degrés de liberté. Notez que est distribué comme distribution F avec et degrés de liberté. Nous pouvons donc saisir les formules de moyenne et de variance de la page wikipedia . Le résultat final est alors: $Et_1^2$ $Var(t_1^2)$ $n$ $t_1^2$ $1$ $n$

$\dfrac{T-k\frac{n}{n-2}}{\sqrt{k\frac{2n^2(n-1)}{(n-2)^2(n-4)}}}\sim N(0,1)$

mpiktas
la source

T ^ 2 de Hotelling: (f - d + 1) / fd T ^ 2 ∼ F (d, f + 1 - d)

DWin

T^{2}

$T^2$

T

$T$

T^{2}

$T^2$

F (1, n) + F (1, n)

$F(1,n)+F(1,n)$

Je crois que cela se réduit à votre situation lorsque la matrice de variance est diagonale. Les éléments hors diagonale d'un échantillon doivent être proches de zéro si les échantillons proviennent de Normal, mais peuvent ne pas être exactement zéro s'ils proviennent de t. Néanmoins, vous avez demandé quelque chose d'approximatif, donc je pense que la réponse est probablement F sous cette réserve.

DWin

F (1, n)

$F(1,n)$

F

$F$