Comprendre cela

Cet article présente une puissante méthode de raisonnement qui évite beaucoup d'algèbre et de calcul. Pour ceux qui connaissent cette méthode, le travail est si automatique et naturel que la réponse initiale à une question comme celle-ci est "c'est évident!" Mais ce n'est peut-être pas si évident avant d'avoir vu la méthode. Par conséquent, tous les détails sont expliqués, étape par étape.

Contexte

Il existe plusieurs formules pour la variance des données $\mathbf{x}=x_1, x_2, \ldots, x_n$ (avec moyenne $\bar x = (x_1+\cdots + x_n)/n$ ), comprenant

\begin{matrix} (1) & Var (x) = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = \frac{1}{n} (\sum_{i = 1}^{n} x_{i}^{2}) - {\bar{x}}^{2} . \end{matrix}

$\operatorname{Var}(\mathbf{x}) = \frac{1}{n}\sum_{i=1}^n (x_i - \bar x)^2 = \frac{1}{n}\left(\sum_{i=1}^n x_i^2\right) - \bar x^2.\tag{1}$

Cela détermine la covariance des données appariées $(x_1,y_1), \ldots, (x_n, y_n)$ via

Cov (x, y) = \frac{1}{4} (Var (x + y) - Var (x - y)) .

$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{4}\left(\operatorname{Var}(\mathbf{x}+\mathbf{y}) - \operatorname{Var}(\mathbf{x}-\mathbf{y})\right).$

La formule impliquée dans le poste de covariance-avec-crayons référencé est

\begin{matrix} (2) & C (x, y) = \sum_{i = 1}^{n - 1} \sum_{j = i + 1}^{n} (x_{j} - x_{i}) (y_{j} - y_{i}) = \frac{1}{2} \sum_{i, j = 1}^{n} (x_{j} - x_{i}) (y_{j} - y_{i}) . \end{matrix}

$C(\mathbf{x}, \mathbf{y}) = \sum_{i=1}^{n-1} \sum_{j=i+1}^n (x_j - x_i)(y_j - y_i) = \frac{1}{2}\sum_{i,j=1}^n (x_j - x_i)(y_j - y_i).\tag{2}$

Ce poste affirme $C$ est proportionnelle à la covariance. La constante de proportionnalité $c(n)$ pourrait (et varie) selon $n$ . Ainsi, lorsque $\mathbf{x}=\mathbf{y}$ une implication de cette affirmation est que

C (x, x) = c (n) Var (x) .

$C(\mathbf{x}, \mathbf{x}) = c(n) \operatorname{Var}(\mathbf{x}).$

Une analyse

Bien que cela puisse être démontré avec l'algèbre de force brute, il existe un meilleur moyen: exploitons les propriétés fondamentales de la covariance. Quelles propriétés seraient-elles? Je voudrais suggérer que les éléments suivants sont basiques:

Indépendance de l'emplacement. C'est,
$Cov (x, y) = Cov (x - a, y)$ $\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \operatorname{Cov}(\mathbf{x}-\mathbf{a}, \mathbf{y})$ pour n'importe quel nombre $a$ . (L'expression $\mathbf{x}-\mathbf{a}$ fait référence à l'ensemble de données $x_1-a, x_2-a, \ldots, x_n-a$ .)
Multilinéarité. Cela implique
$Cov (λ x, y) = λ Cov (x, y)$ $\operatorname{Cov}(\lambda\,\mathbf{x}, \mathbf{y}) = \lambda\,\operatorname{Cov}(\mathbf{x}, \mathbf{y})$ pour n'importe quel nombre $\lambda$ . (L'expression $\lambda\mathbf{x}$ fait référence à l'ensemble de données $\lambda x_1, \lambda x_2, \ldots, \lambda x_n$ .)
Symétrie. La covariance de $\mathbf{x}$ et $\mathbf{y}$ est la covariance de $\mathbf{y}$ et $\mathbf{x}$ :
$Cov (x, y) = Cov (y, x) .$ $\operatorname{Cov}(\mathbf{x}, \mathbf{y}) =\operatorname{Cov}(\mathbf{y}, \mathbf{x}).$
Invariance sous permutations. La covariance ne change pas lorsque nous réindexons le $(x_i, y_i)$ . Officiellement,
$Cov (x, y) = Cov (x^{σ}, y^{σ})$ $\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \operatorname{Cov}(\mathbf{x}^\sigma, \mathbf{y}^\sigma)$ pour toute permutation $\sigma\in\mathfrak{S}_n$ . (Des expressions comme $\mathbf{x}^\sigma$ représenter la réorganisation du $x_i$ selon $\sigma$ , pour que $\mathbf{x}^\sigma = x_{\sigma(1)}, x_{\sigma(2)}, \ldots, x_{\sigma(n)}.$ )

Toutes ces propriétés valent évidemment pour les deux $\operatorname{Var}$ et $C$ d'inspecter les formes d'expressions $(1)$ et $(2)$ . Le seul qui pourrait avoir besoin d'explication est l'indépendance de l'emplacement. Cependant, un décalage constant des valeurs $x_i$ ne modifie ni les résidus ni les différences:

x_{i} - \bar{x} = (x_{i} - a) - \bar{x - a}

$x_i - \bar{x} = (x_i - a) - \overline{x - a}$

x_{j} - x_{i} = (x_{j} - a) - (x_{i} - a) .

$x_j - x_i = (x_j - a) - (x_i - a).$

Par conséquent, il est en effet évident que la première version de $(1)$ et $(2)$ sont indépendants de l'emplacement.

Solution

Voici donc le raisonnement. Parce que $C$ est symétrique et multilinéaire, c'est une forme quadratique complètement déterminée par des coefficients $c_{ij} = c_{ji}$ :

C (x, y) = \sum_{i, j = 1}^{n} c_{i j} x_{i} y_{j} .

$C(\mathbf{x}, \mathbf{y}) = \sum_{i, j=1}^n c_{ij}\, x_i y_j.$

Parce qu'il est invariant par permutation, $c_{ij} = c_{i^\prime j^\prime}$ pour tous les indices $i,j,i^\prime,j^\prime$ Pour qui $i\ne j$ et $i^\prime \ne j^\prime$ ; aussi, $c_{ii} = c_{i^\prime i^\prime}$ pour tous les indices $i$ et $i^\prime$ . Donc, $C$ est déterminé par seulement deux nombres, disons $c_{11}$ et $c_{12}$ . Enfin, l'un de ces nombres détermine les deux autres grâce à l'invariance de localisation: cette condition signifie

0 = C (0, 0) \overset{location-invariance}{=} C (1, 0) \overset{symmetry}{=} C (0, 1) \overset{location-invariance}{=} C (1, 1)

$0 = C(\mathbf{0},\mathbf{0}) \overset{\text{location-invariance}}{=} C(\mathbf{1},\mathbf{0}) \overset{\text{symmetry}}{=} C(\mathbf{0},\mathbf{1}) \overset{\text{location-invariance}}{=} C(\mathbf{1},\mathbf{1})$

(où " $\mathbf{0}$ " et " $\mathbf{1}$ "se réfèrent à constante $n$ -vecteurs avec ces valeurs). Mais

0 = C (1, 1) = \sum_{i, j}^{n} c_{i j} = n c_{11} + (n^{2} - n) c_{12},

$0=C(\mathbf{1},\mathbf{1}) = \sum_{i,j}^n c_{ij} = nc_{11} + (n^2-n)c_{12},$ déterminer chacun

c_{11}

$c_{11}$ et

c_{12}

$c_{12}$ en termes de l'autre.

Cela prouve déjà le point principal: $C$ doit être proportionnelle à $\operatorname{Cov}$ , puisque chacun est déterminé par l'un quelconque de leurs coefficients. Pour trouver la constante de proportionnalité, inspectez les deux formules $(1)$ et $(2)$ , à la recherche de toutes les apparitions de $x_1^2$ : vous pouvez lire la valeur associée de $c_{11}$ d'eux. De la deuxième version de $(1)$ , le coefficient de $x_1^2$ est clairement $1/n - (1/n)^2$ . Depuis la première version de $(2)$ , avec $\mathbf{y} = \mathbf{x}$ , le coefficient de $x_1^2$ est clairement $n-1$ . (Géométriquement, chaque point du nuage de points de $(\mathbf{x},\mathbf{x})$ est associé à $n-1$ d'autres, d'où le carré de ses coordonnées apparaîtra $n-1$ fois.) Par conséquent

c (n) = \frac{n - 1}{1 / n - (1 / n)^{2}} = n^{2},

$c(n) = \frac{n-1}{1/n - (1/n)^2} = n^2,$

QED . Ce fut le seul calcul requis pour démontrer

Cov (x, y) = \frac{1}{n^{2}} C (x, y) = \frac{1}{n^{2}} \sum_{i = 1}^{n - 1} \sum_{j = i + 1}^{n} (x_{j} - x_{i}) (y_{j} - y_{i}) .

$\operatorname{Cov}(\mathbf{x}, \mathbf{y}) = \frac{1}{n^2}C(\mathbf{x}, \mathbf{y}) = \frac{1}{n^2}\sum_{i=1}^{n-1} \sum_{j=i+1}^n (x_j - x_i)(y_j - y_i).$

whuber
la source

Comprendre cela

Réponses:

Contexte

Une analyse

Solution