Comment tester si une matrice de covariance croisée est non nulle?

11

Le fond de mon étude :

Dans un échantillonnage de Gibbs où nous échantillonnons (la variable d'intérêt) et partir de et respectivement, où et sont des vecteurs aléatoires à dimensions. Nous savons que le processus est généralement divisé en deux étapes:XYP(X|Y)P(Y|X)XYk

  1. Période de rodage, où nous jetons tous les échantillons. Désignons les échantillons comme et .X1XtY1Yt
  2. Période "After-Burn-in", où nous faisons la moyenne des échantillons comme résultat final souhaité.X¯=1ki=1kXt+i

Cependant, les échantillons de la séquence "post-rodage" ne sont pas distribués indépendamment. Par conséquent, si je veux inspecter la variance du résultat final, il devientXt+1Xt+k

Var[X¯]=Var[i=1kXt+i]=1k2(i=1kVar[Xt+i]+i=1k1j=i+1kCov[Xt+i,Xt+j])

Ici, le terme est une matrice de covariance croisée appliquée à tout avec .Cov[Xt+i,Xt+j]k×k(i,j)i<j

Par exemple, j'ai

Xt+1=(1,2,1)Xt+2=(1,0,2)Xt+3=(1,0,0)Xt+4=(5,0,1)

alors je pourrais estimer la matrice de covariance avecCov[Xt+i,Xt+i+1]

13i=13(Xt+iμt+i)(Xt+i+1μt+i+1)

Maintenant, je suis intéressé à savoir si l'estimation résultante est significativement non nulle, de sorte que je dois l'inclure dans mon estimation de variance de .Var[X¯]

Voici donc mes questions :

  1. Nous échantillonnons partir de . Puisque est en train de changer, je pense que et ne sont pas de la même distribution, donc n'est pas identique à . Cette affirmation est-elle correcte?Xt+iP(Xt+i|Yt+i)Yt+iXt+iXt+i+1Cov[Xt+i,Xt+j]Cov[Xt+i,Xt+i]
  2. Supposons que j'ai suffisamment de données pour estimer (échantillons voisins dans la séquence), existe-t-il un moyen de tester si la matrice de covariance est significativement matrice non nulle? D'une manière générale, je suis intéressé par un indicateur qui me guide vers des matrices de covariance croisée significatives qui devraient être incluses dans mon estimation finale de la variance.Cov[Xt+i,Xt+i+1]
TomHall
la source
4
En fait, cela ressemble maintenant à une bonne question; Je pense que d'autres personnes seront mieux placées pour donner de bonnes réponses que moi, donc j'aimerais promouvoir cela (placer une prime dessus) quand il deviendra éligible sous peu. [Réponses courtes: 1. Ces deux covariances sont différentes. 2. Vous n'avez pas besoin de tester si les variables consécutives sont corrélées (dans tous les cas sauf les plus triviaux, l'algorithme fonctionne en générant des variables dépendantes) - plus intéressant de mesurer la corrélation que de la tester;] ... si les bonnes réponses ne s'affichent pas Je développerai ces brefs commentaires en une réponse complète
Glen_b -Reinstate Monica
4
Il semble que votre question soit beaucoup plus large que votre question de titre. Répondant spécifiquement à votre question de titre, il y a le test de sphéricité de Bartlett qui permet de tester si une matrice de covariance d'échantillon est diagonale. Vous devrez probablement l'adapter à votre scénario de covariance croisée (votre "matrice de covariance" n'est en fait pas vraiment une matrice de covariance, c'est une matrice de covariance croisée; c'est un bloc hors diagonale de la matrice de covariance complète de X_t et X_ { t + 1} ensemble). CC à @Glen_b.
amibe dit Réintégrer Monica le
2
J'ajouterais que les covariances ont tendance à se désintégrer plus ou moins géométriquement (de plus en plus lorsque vous vous éloignez); les valeurs très éloignées dans le temps ont tendance à avoir une très faible corrélation ( non nulle mais largement ignorable) tandis que celles qui sont proches peuvent parfois être assez dépendantes.
Glen_b -Reinstate Monica
1
@Tom 1. Néanmoins, avec des séries stationnaires, à des décalages très éloignés (4 n'est pas éloigné!), Qu'advient-il de l'ACF? 2. Vous savez quelque chose sur le fonctionnement des valeurs générées à partir de MCMC que vous ne pouvez pas dire sur les séries chronologiques arbitraires ... elles sont markoviennes . Vous remarquerez que mes commentaires précédents ne prétendent pas que les retards les plus proches doivent montrer une décroissance géométrique (par exemple, je n'ai pas dit qu'il était impossible de voir une corrélation plus élevée au décalage 4 à 3). Vous aurez toujours (si certaines conditions se maintiennent) tendance à la décroissance géométrique dans l'ACF lorsque vous vous éloignez.
Glen_b -Reinstate Monica
2
Si votre période d'échantillonnage est si courte que vous ne disposez pas d'estimations très précises de la covariance croisée, vous devrez peut-être simplement faire face au fait que vos estimations des termes de la covariance croisée ont une erreur-type plus grande. Compte tenu de ma compréhension actuelle, je vais encore plus fermement réaffirmer mon objection à tester les corrélations. Le test d'hypothèse pour les corrélations nulles et non nulles ne résout pas votre problème ici.
Glen_b -Reinstate Monica

Réponses:

1
  1. Nous échantillonnons partir de . Puisque est en train de changer, je pense que et ne sont pas de la même distribution [...]Xt+iP(Xt+i|Yt+i)Yt+iXt+iXt+i+1

Vous confondez les distributions conditionnelles et inconditionnelles ici, voir aussi ma prochaine remarque. Conditionnel à et , . Mais tout le point de construire votre échantillonneur de Gibbs est à l' échantillon des distributions fixes de et . En gros, si vous avez exécuté votre chaîne assez longtemps et que suit la distribution stationnaire, vous pouvez alors dire signifiant que la distribution inconditionnelle de est également invariante. En d'autres termes, commeYt+i=y1Yt+i+1=y2P(Xt+i|Yt+i=y1)P(Xt+i+1|Yt+i+1=y2)XY{Yt}

P(Xt)=YP(Xt|Yt)dP(Yt),
Xtt et nous convergeons vers les distributions stationnaires, , puisque et seront asymptotiquement tirés de (la même!) distribution stationnaire . En revanche et comme précédemment, une fois que nous conditionnons que et , cela ne tiendra plus, quelle que soit la taille de .P(Xt+i|Yt+i)=P(Xt+i+1|Yt+i+1)Yt+iYt+i+1P(Yt)Yt+i=y1Yt+i+1=y2t

[...] donc n'est pas la même chose que . Cette affirmation est-elle correcte?Cov[Xt+i,Xt+j]Cov[Xt+i,Xt+i]

Oui, c'est correct - même si , c'est-à-dire et ont la même distribution stationnaire. Je sais que cela peut prêter à confusion, mais soyez indulgent avec moi. Définissez avec . Par substitution itérée, on peut montrer que , et puisque (infini) les sommes de normales sont toujours normales, il considère que et de sorte que . Clairement, etXt+1XtXtXt+1Yt=0.8Yt1+εtεtiidN(0,1)Yt=i=0t0.8iεti YtiidN(0,1Var(Yt)=i=0t0.82i=110.82YtYt+1Yt+1YtXtYtiidN(0,110.82)YtYt+1seront toujours corrélés, mais ils proviendront également de la même distribution ( ). Une situation similaire s'applique à votre .Yt+1YtXt

  1. Supposons que j'ai suffisamment de données pour estimer (échantillons voisins dans la séquence), existe-t-il un moyen de tester si la matrice de covariance est significativement matrice non nulle? D'une manière générale, je suis intéressé par un indicateur qui me guide vers des matrices de covariance croisée significatives qui devraient être incluses dans mon estimation finale de la variance.Cov[Xt+i,Xt+i+1]

Eh bien, si vous aviez une infinité d'observations, elles finiront toutes par être importantes. De toute évidence, vous ne pouvez pas le faire dans la pratique, mais il existe des moyens de `` couper '' l'expansion après certains termes, voir l'excellente réponse acceptée ici. Fondamentalement, vous définissez un noyau qui se désintègre à et attribue des poids aux premières matrices de covariance que vous pourriez calculer. Si vous voulez choisir d'une manière sur des principes, vous devrez creuser un peu dans la littérature, mais l'article que j'ai lié vous donne de bonnes références pour faire exactement cela.0 l T l Tk()0lTlT

Jeremias K
la source