Pourquoi traitons-nous des vecteurs propres de l'autocorrélation au lieu des données elles-mêmes?

8

Comment comprendre intuitivement pourquoi les vecteurs propres de la matrice d'autocorrélation sont utilisés, mais les vecteurs propres de la matrice construits à partir d'échantillons temporels n'ont aucun sens et ne sont pas utilisés? Par exemple, dans la détection d'un signal harmonieux dans un bruit additif.

Timur
la source

Réponses:

5

Quelques raisons "au niveau de l'intestin" pour lesquelles il est préférable de travailler avec la matrice d'autocorrélation au lieu d'une matrice avec vos observations:

  • Si vous voulez prendre en compte toutes vos observations et que vous avez beaucoup de données, vous finirez par manipuler (inverser, multiplier) des matrices assez grandes. Si vous travaillez avec la matrice d'autocorrélation, vous "résumez" vos données une fois (dans une étape assez efficace ne nécessitant qu'une FFT et une FFT inverse), et à partir de là, vous manipulez simplement votre matrice d'autocorrélation de tailleP×PP est votre ordre de modèle (par exemple pour la modélisation AR ou la modélisation sinusoïdale).
  • Avec certaines données, l'utilisation des observations brutes ne fonctionne tout simplement pas numériquement, car vous rencontrez des situations dans lesquelles vous devez traiter des matrices qui ne sont pas garanties d'être positives-définies.

Par exemple, considérons deux approches de l'ajustement d'un modèle AR.

Utilisation directe de la matrice de données

L'erreur de reconstruction quadratique empirique sur vos données est:

ϵ=xTx+xTΓa+aTΓTx+aTΓTΓa

a est le vecteur des coefficients AR, x est votre vecteur d'observation, et Γla matrice avec vos observations retardées. Vous devez trouver la valeur deaqui minimise cela. Après dérivation et un peu de mélange, votre solution ressemble à ceci:

a=(ΓTΓ)1ΓTx

Et vous êtes foutu parce que vous n'avez absolument aucune garantie que ΓTΓpeut être inversé. Dans le processus, numériquement parlant, vous avez dû faire face à des produits matriciels assez gros si vous avez une longue séquence d'observations.

Vue de processus aléatoire

si vous adaptez un angle de "processus aléatoire" au problème, la quantité que vous devez minimiser (la valeur attendue de l'erreur) est:

ϵ=rx(0)+2ra+aTRa

Et vous vous retrouvez avec la solution la plus agréable au goût:

a=R1r

Avec une solide garantie que ce sera calculable car R est définitivement défini!

Il semble que votre problème soit celui de la modélisation sinusoïdale (plutôt que de la modélisation AR). Il y a beaucoup de signes de la main ici, mais ce que j'ai dit sur la modélisation AR et les obstacles à l'utilisation de la matrice de données brutes; s'applique également à la modélisation sinusoïdale - avec la décomposition des valeurs propres étant l'opération problématique au lieu de l'inversion de la matrice.

pichenettes
la source
2

Premièrement, les vecteurs propres et les valeurs propres sont définis pour les opérateurs. La corrélation est une opération.

Deuxièmement, les vecteurs propres de l'autocorrélation sont particulièrement intéressants car ils expliquent le plus efficacement la variance du signal dans une régression linéaire. En d'autres termes, pour un nombre fixe de vecteurs, la sélection des vecteurs propres minimise l'erreur quadratique moyenne où le signal est modélisé comme une somme linéaire des vecteurs. Cette technique est appelée analyse en composantes principales .

Si vous pouvez élargir votre notion de signal "harmonieux", je pourrais peut-être commenter davantage.

Emre
la source
Oui, et puis-je ajouter, on peut également travailler avec la matrice de données dans l'analyse en composantes principales. Cependant, cela implique plutôt une décomposition en valeurs singulières.
Bryan