Combiner deux matrices de covariance

11

Je calcule la covariance d'une distribution en parallèle et j'ai besoin de combiner les résultats distribués en gaussien singulier. Comment combiner les deux?

L'interpolation linéaire entre les deux fonctionne presque, si elles sont distribuées et dimensionnées de manière similaire.

Wikipedia fournit un forumla en bas pour la combinaison mais cela ne semble pas correct; deux distributions identiques devraient avoir la même covariance, mais la formule au bas de la page double la covariance.

Existe-t-il un moyen de combiner deux matrices?

Matt Kemp
la source
3
La formule Wikipedia répond à votre question, Matt: vous n'avez peut-être pas remarqué qu'il s'agit d'une formule partielle où vous devez ensuite diviser par la taille de l'échantillon.
whuber
1
J'ai compris cela maintenant, avec votre aide - si vous mettez cela dans une réponse, je le marquerai comme répondu.
Matt Kemp

Réponses:

12

Cette question se pose souvent sous différentes formes. Ce qui leur est commun, c'est

Comment puis-je combiner des statistiques basées sur le moment qui ont été calculées à partir de sous-ensembles disjoints de mes données?

L'application la plus simple concerne les données qui ont été divisées en deux groupes. Vous connaissez la taille des groupes et les moyennes des groupes. Pour ces quatre quantités uniquement, quelle est la moyenne globale des données?

D'autres applications généralisent des moyennes aux variances, aux écarts-types, aux matrices de covariance, aux asymétries et aux statistiques multivariées; et peut impliquer plusieurs sous-groupes de données. Notez que beaucoup de ces quantités sont des combinaisons de moments quelque peu compliquées: l'écart type, par exemple, est la racine carrée d'une combinaison quadratique des premier et deuxième moments (moyenne et carré moyen).

Tous ces cas sont facilement manipulés en réduisant les différents moments à des sommes, car les sommes sont évidemment et facilement combinées: elles sont ajoutées. Mathématiquement, cela se résume à ceci: vous avez un lot de données qui ont été séparées en groupes disjoints de tailles j 1 , j 2 , , j g : ( x 1 , x 2 , , x j 1 ;X=(x1,x2,,xn)j1,j2,,jg . Appelons le i ème groupe X ( i ) = ( x j i + 1 , x j i + 2 , , x j i(x1,x2,,xj1;xj1+1,,xj1+j2;xj1+j2+1,;;,xn)i. Par définition, lekèmemomentde tout lot de donnéesy1,,yjest la moyenne deskème puissances,X(i)=(xji+1,xji+2,,xji+1)ky1,,yjk

μk(y)=(y1k+y2k++yjk)/j.

jμk(y)kgn

nμk(X)=(x1k+x2k++xnk)=(x1k+x2k++xj1k)++(xj1++jg1+1k+xj1++jg1+2k++xnk)=j1μk(X(1))+j2μk(X(2))++jgμk(X(g)).

nkk

xy

((x1,y1),(x2,y2),,(xn,yn)),

gxiyi(1,1)μ(1,1)n

n1nn1ji1nji


n

whuber
la source
Je suis un peu confus quant à la définition du k-ème moment. Supposez-vous des données moyennes nulles?
reschu
kth
Peut-être mauvais! Je mélangeais des moments «centraux» et «bruts». Merci pour la clarification!
reschu
Je pense que "connaître les moyennes des tailles de sous-groupes" dans l'avant-dernier paragraphe devrait se lire "connaître les moyennes des sous-groupes" à la place? (J'hésite à le modifier moi-même car je n'ai pas pris la peine d'étudier la réponse très attentivement)
Juho Kokkala
@Juho Vous avez tout à fait raison. Merci de l'avoir remarqué!
whuber