Technique de traçage aléatoire

10

J'ai rencontré la technique de traçage aléatoire suivante dans M. Seeger, «Mises à jour de bas rang pour la décomposition Cholesky», Université de Californie à Berkeley, Tech. Rep, 2007.

tr (A) = E [x^{T} A x]

$\operatorname{tr}(\mathbf{A}) = {E[\mathbf{x}^T \mathbf{A} \mathbf{x}]}$

où . $\mathbf{x} \sim N(\mathbf{0},\mathbf{I})$

En tant que personne sans formation approfondie en mathématiques, je me demande comment cette égalité peut être atteinte. De plus, comment interpréter , par exemple géométriquement? Où dois-je chercher pour comprendre le sens de prendre le produit intérieur d'un vecteur et sa valeur de plage? Pourquoi la moyenne est-elle égale à la somme des valeurs propres? Outre la propriété théorique, quelle est son importance pratique? $\mathbf{x}^T \mathbf{A} \mathbf{x}$

J'ai écrit un extrait de code MATLAB pour voir si cela fonctionne

#% tr(A) == E[x'Ax], x ~ N(0,I)

N = 100000;
n = 3;
x = randn([n N]); % samples
A = magic(n); % any n by n matrix A

y = zeros(1, N);
for i = 1:N
    y(i) = x(:,i)' * A * x(:,i);
end
mean(y)
trace(A)

La trace est 15 où l'approximation est 14,9696.

normal-distribution matlab Petrichor
la source

12

NB Le résultat déclaré ne dépend d'aucune hypothèse de normalité ni même d'indépendance des coordonnées de . Cela ne dépend pas non plus de la définition positive deEn effet, supposons seulement que les coordonnées de ont une moyenne nulle, une variance de un et ne sont pas corrélées (mais pas nécessairement indépendantes); c'est-à-dire, , , et pour tout . $\newcommand{\x}{\mathbf{x}}\newcommand{\e}{\mathbb{E}}\newcommand{\tr}{\mathbf{tr}}\newcommand{\A}{\mathbf{A}}\x$ $\A$ $\x$ $\e \x_i = 0$ $\e \x_i^2 = 1$ $\e \x_i \x_j = 0$ $i \neq j$

Approche à mains nues

Soit une matrice arbitraire . Par définition . Alors, et nous avons donc terminé. $\A = (a_{ij})$ $n \times n$ $\tr(\A) = \sum_{i=1}^n a_{ii}$

t r (A) = \sum_{i = 1}^{n} a_{i i} = \sum_{i = 1}^{n} a_{i i} E x_{i}^{2} = \sum_{i = 1}^{n} a_{i i} E x_{i}^{2} + \sum_{i \neq j} a_{i j} E x_{i} x_{j},

$\tr(\A) = \sum_{i=1}^n a_{ii} = \sum_{i=1}^n a_{ii} \e \x_i^2 = \sum_{i=1}^n a_{ii} \e \x_i^2 + \sum_{i\neq j} a_{ij} \e \x_i \x_j ,$

Dans le cas où ce n'est pas tout à fait évident, notez que le côté droit, par linéarité de l'attente, est

\sum_{i = 1}^{n} a_{i i} E x_{i}^{2} + \sum_{i \neq j} a_{i j} E x_{i} x_{j} = E (\sum_{i = 1}^{n} \sum_{j = 1}^{n} a_{i j} x_{i} x_{j}) = E (x^{T} A x)

$\sum_{i=1}^n a_{ii} \e \x_i^2 + \sum_{i\neq j} a_{ij} \e \x_i \x_j = \e\Big(\sum_{i=1}^n \sum_{j=1}^n a_{ij} \x_i \x_j \Big) = \e(\x^T \A \x)$

Preuve via les propriétés de trace

Il existe une autre façon d'écrire cela, qui est suggestive, mais qui repose, conceptuellement, sur des outils légèrement plus avancés. Nous avons besoin que l'espérance et l'opérateur de trace soient linéaires et que, pour deux matrices quelconques et de dimensions appropriées, . Ensuite, puisque , nous avons et ainsi, $\A$ $\newcommand{\B}{\mathbf{B}}\B$ $\tr(\A\B) = \tr(\B\A)$ $\x^T \A \x = \tr(\x^T \A \x)$

E (x^{T} A x) = E (t r (x^{T} A x)) = E (t r (A x x^{T})) = t r (E (A x x^{T})) = t r (A E x x^{T}),

$\e(\x^T \A \x) = \e( \tr(\x^T \A \x) ) = \e( \tr(\A \x \x^T) ) = \tr( \e( \A \x \x^T ) ) = \tr( \A \e \x \x^T ),$

E (x^{T} A x) = t r (A I) = t r (A) .

$\e(\x^T \A \x) = \tr(\A \mathbf{I}) = \tr(\A) .$

Formes quadratiques, produits intérieurs et ellipsoïdes

Si est défini positif, alors un produit interne sur peut être défini via et définit un ellipsoïde dans centré à l'origine. $\A$ $\mathbf{R}^n$ $\langle \x, \mathbf{y} \rangle_{\A} = \x^T \A \mathbf{y}$ $\mathcal{E}_{\A} = \{\x: \x^T \A \x = 1\}$ $\mathbf{R}^n$

cardinal
la source

Il est assez déroutant de suivre les variables bold et mormalcase . Je pense que ce sont des valeurs scalaires. Je comprends plus clairement quand je pars du formulaire d'attente comme vous l'avez fait dans la dernière partie. Donc est très clair pour moi maintenant.

x_{i}

$\mathbf{x}_i$

x_{i}

$x_i$

E [(x^{T} A x)] = E [(\sum_{i = 1}^{n} \sum_{j = 1}^{n} a_{i j} x_{i} x_{j})] = \sum_{i = 1}^{n} a_{i i} E [x_{i}^{2}] + \sum_{i \neq j} a_{i j} E [x_{i} x_{j}]

$\newcommand{\x}{\mathbf{x}}\newcommand{\tr}{\operatorname{tr}} {E[(\x^T \mathbf{A} \x)]} = {E[\Big(\sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j \Big)]} = \sum_{i=1}^n a_{ii} {E[x_i^2]} + \sum_{i\neq j} a_{ij} {E[x_i x_j]}$

Petrichor

x_{i}

$\mathbf{x}_i$ est la ème coordonnée du vecteur . Les autres sont simplement des fautes de frappe. Désolé pour ça. J'essayais de suivre votre notation aussi étroitement que possible. J'utiliserais normalement avec comme coordonnées de la variable aléatoire . Mais, je ne voulais pas (potentiellement) confondre.

i

$i$

x

$\mathbf{x}$

X = (X_{i})

$\mathbf{X} = (X_i)$

X_{i}

$X_i$

X

$\mathbf{X}$

cardinal

En fait, c'est cohérent dans la réponse. Je voulais juste m'assurer que les variables indicées sont les éléments du vecteur. Maintenant c'est clair.

petrichor

Eh bien, c'est cohérent (maintenant) parce que je l'ai édité! :) Merci d'avoir signalé les fautes de frappe. J'essaierai d'ajouter un peu plus sur la géométrie à un moment donné au cours des prochains jours.

cardinal

3

Si est défini positif symétrique, alors avec orthonormé, et diagonal avec des valeurs propres sur la diagonale. Puisque a une matrice de covariance d'identité et est orthonormé, a également une matrice de covariance d'identité. Donc en écrivant , on a . Puisque l'opérateur d'attente est linéaire, il s'agit simplement de . Chaque est un khi carré avec 1 degré de liberté, donc a la valeur attendue 1. Par conséquent, l'attente est la somme des valeurs propres. $A$ $A = U^tDU$ $U$ $D$ $x$ $U$ $Ux$ $y = Ux$ $E[x^TAx] = E[y^tDy]$ $\sum_{i=0}^n \lambda_i E[y_i^2]$ $y_i$

Géométriquement, les matrices définies positives symétriques sont en correspondance 1-1 avec les ellipsoïdes - données par l'équation . Les longueurs des axes de l'ellipsoïde sont données par où sont les valeurs propres. $A$ $x^TAx = 1$ $1/\sqrt\lambda_i$ $\lambda_i$

Lorsque où est la matrice de covariance, c'est le carré de la distance de Mahalanobis . $A = C^{-1}$ $C$

aprokopiw
la source

1

Permettez-moi d'aborder la partie "quelle est son importance pratique" dans la question. Il y a beaucoup de situations dans lesquelles nous avons la possibilité de produits Compute vecteur de matrice efficace même si nous ne disposons pas d' une copie stockée de la matrice ou ne pas avoir assez de stockage pour enregistrer une copie de . Par exemple, peut être de taille 100 000 par 100 000 et entièrement dense - il faudrait 80 gigaoctets de RAM pour stocker une telle matrice au format à virgule flottante à double précision. $Ax$ $A$ $A$ $A$

Algorithmes probabilistes comme celui - ci peuvent être utilisées pour estimer la trace d' ou ( en utilisant un algorithme connexe) entrées diagonales individuelles . $A$ $A$

Certaines applications de cette technique à des problèmes d'inversion géophysique à grande échelle sont discutées dans

JK MacCarthy, B. Borchers et RC Aster. Estimation stochastique efficace de la matrice de résolution du modèle en diagonale et validation croisée généralisée pour les grands problèmes inverses géophysiques. Journal of Geophysical Research, 116, B10304, 2011. Lien vers l'article

Brian Borchers
la source

+1 J'ai rencontré des algorithmes randomisés ce semestre et je les ai fascinés. Permettez-moi d'ajouter un autre bel article. Nathan Halko, Per-Gunnar Martinsson, Joel A. Tropp, "Finding structure with randomness: Probabilistic algorithms for constructing approximative matrix decompositions", 2010, arxiv.org/abs/0909.4061

petrichor

Technique de traçage aléatoire

Réponses: