Disons par exemple que vous faites un modèle linéaire, mais les données sont complexes.
Mon ensemble de données est complexe, comme dans tous les nombres en sont de la forme ( a + b i ) . Y a-t-il quelque chose de différent sur le plan de la procédure lorsque vous travaillez avec de telles données?
Je demande parce que vous finirez par obtenir des matrices de covariance complexes et des statistiques de test qui sont complexes.
Avez-vous besoin d'utiliser un transposé conjugué au lieu de transposer lorsque vous faites des moindres carrés? une covariance de valeur complexe est-elle significative?
Réponses:
Sommaire
La généralisation de la régression des moindres carrés aux variables à valeurs complexes est simple, consistant principalement à remplacer les transpositions matricielles par des transpositions conjuguées dans les formules matricielles habituelles. Une régression à valeurs complexes, cependant, correspond à une régression multiple multivariée compliquée dont la solution serait beaucoup plus difficile à obtenir en utilisant des méthodes standard (variables réelles). Ainsi, lorsque le modèle à valeurs complexes est significatif, l'utilisation d'une arithmétique complexe pour obtenir une solution est fortement recommandée. Cette réponse comprend également des suggestions de façons d'afficher les données et de présenter des tracés de diagnostic de l'ajustement.
Par souci de simplicité, discutons le cas de la régression ordinaire (univariée), qui peut être écrite
J'ai pris la liberté de nommer la variable indépendante et la variable dépendante Z , qui est conventionnelle (voir, par exemple, Lars Ahlfors, Complex Analysis ). Tout ce qui suit est simple à étendre au paramètre de régression multiple.W Z
Interprétation
Ce modèle a une interprétation géométrique facilement visualisable: la multiplication par redimensionnera w j par le module de β 1 et le fera tourner autour de l'origine par l'argument de β 1 . Par la suite, l'ajout de β 0 traduit le résultat par ce montant. L'effet de ε j est de "gigue" cette traduction un peu. Ainsi, régresser le z j sur le w j de cette manière est un effort pour comprendre la collection de points 2D ( z j )β1 wj β1 β1 β0 εj zj wj (zj) comme résultant d'une constellation de points 2D via une telle transformation, permettant une erreur dans le processus. Ceci est illustré ci-dessous avec la figure intitulée "Fit as a Transformation".(wj)
Notez que le redimensionnement et la rotation ne sont pas n'importe quelle transformation linéaire du plan: ils excluent par exemple les transformations de biais. Ainsi , ce modèle n'est pas la même que celle d' une régression multiple avec deux variables quatre paramètres.
Les moindres carrés ordinaires
Pour connecter le cas complexe avec le cas réel, écrivons
pour les valeurs de la variable dépendante etzj=xj+iyj
pour les valeurs de la variable indépendante.wj=uj+ivj
De plus, pour les paramètres, écrivez
et β 1 = γ 1 + i δ 1 .β0=γ0+iδ0 β1=γ1+iδ1
Chacun des nouveaux termes introduits est, bien sûr, réel, et est imaginaire tandis que j = 1 , 2 , … , n indexe les données.i2=−1 j=1,2,…,n
OLS découvertes ß 0 et β 1 qui minimisent la somme des carrés des écarts,β^0 β^1
Formellement, cela est identique à la formulation matricielle habituelle: comparez-la à La seule différence que nous trouvons est que la transposée de la matrice de conception X ' est remplacée par la transposée conjuguée X ∗ = ˉ X ' . Par conséquent, la solution matricielle formelle est(z−Xβ)′(z−Xβ). X′ X∗=X¯′
Dans le même temps, pour voir ce qui pourrait être accompli en transposant cela en un problème purement variable, nous pouvons écrire l'objectif OLS en termes de composants réels:
Cela représente évidemment deux régressions réelles liées : l'une régresse sur u et v , l'autre régresse y sur u et v ; et nous exigeons que le coefficient v pour x soit le négatif du coefficient u pour y et que le coefficient u pour x soit égal au coefficient v pour y . De plus, parce que le totalx u v y u v v x u y u x v y les carrés des résidus des deux régressions doivent être minimisés, il ne sera généralement pas le cas que l'un ou l'autre ensemble de coefficients donne la meilleure estimation pour ou y seul. Ceci est confirmé dans l'exemple ci-dessous, qui réalise séparément les deux régressions réelles et compare leurs solutions à la régression complexe.x y
Cette analyse montre que la réécriture de la régression complexe en termes de parties réelles (1) complique les formules, (2) obscurcit l'interprétation géométrique simple et (3) nécessiterait une régression multiple multivariée généralisée (avec des corrélations non triviales entre les variables ) résoudre. On peut faire mieux.
Exemple
À titre d'exemple, je prends une grille de valeurs aux points intégraux près de l'origine dans le plan complexe. Aux valeurs transformées w β s'ajoutent des erreurs ayant une distribution gaussienne bivariée: en particulier, les parties réelles et imaginaires des erreurs ne sont pas indépendantes.w wβ
Il est difficile de tracer le diagramme de dispersion habituel de pour les variables complexes, car il serait composé de points en quatre dimensions. Au lieu de cela, nous pouvons voir la matrice de nuage de points de leurs parties réelles et imaginaires.(wj,zj)
Ignorez l'ajustement pour l'instant et regardez les quatre premières lignes et les quatre colonnes de gauche: elles affichent les données. La grille circulaire de est évidente dans le coin supérieur gauche; il compte 81 points. Les diagrammes de dispersion des composantes de w par rapport aux composantes de z montrent des corrélations claires. Trois d'entre eux ont des corrélations négatives; seuls y (la partie imaginaire de z ) et u (la partie réelle de w ) sont corrélés positivement.w 81 w z y z u w
Pour ces données, la vraie valeur de est ( - 20 + 5 i , - 3 / quatre + 3 / quatre √β . Elle représente une extension de3/deuxet une rotationsens antihoraire de 120 degréssuivi partraduction de20unités vers la gauche et5unités vershaut. Je calcule trois ajustements: la solution des moindres carrés complexes et deux solutions OLS pour(xj)et(yj)séparément, pour comparaison.(−20+5i,−3/4+3/43–√i) 3/2 20 5 (xj) (yj)
Il sera toujours le cas que l'ordonnée à l'origine uniquement en accord avec la partie réelle de l'ordonnée à l'origine complexe et l'ordonnée à l'origine uniquement en accord avec la partie imaginaire de l'ordonnée à l'origine complexe. Il est évident, cependant, que les pentes réelles et imaginaires uniquement ne correspondent ni aux coefficients de pente complexes ni entre elles, exactement comme prévu.
Examinons de plus près les résultats de l'ajustement complexe. Tout d'abord, un tracé des résidus nous donne une indication de leur distribution gaussienne bivariée. (La distribution sous-jacente a des écarts-types marginaux de et une corrélation de 0,8 .) Ensuite, nous pouvons tracer les magnitudes des résidus (représentés par les tailles des symboles circulaires) et leurs arguments (représentés par des couleurs exactement comme dans le premier tracé) par rapport aux valeurs ajustées: ce tracé devrait ressembler à une distribution aléatoire de tailles et de couleurs, ce qu'il fait.2 0.8
Enfin, nous pouvons décrire l'ajustement de plusieurs manières. L'ajustement est apparu dans les dernières lignes et colonnes de la matrice de nuage de points ( qv ) et mérite peut-être d'être examiné de plus près à ce point. En bas à gauche, les ajustements sont tracés sous forme de cercles et de flèches bleues ouvertes (représentant les résidus) les reliant aux données, représentées par des cercles rouges pleins. A droite, les sont représentés par des cercles noirs ouverts remplis de couleurs correspondant à leurs arguments; ceux-ci sont reliés par des flèches aux valeurs correspondantes de ( z j ) . Rappelons que chaque flèche représente une expansion par trois / deux autour de l'origine, la rotation de 120(wj) (zj) 3/2 120 degrés, et traduction par , plus cette erreur guassienne bivariée.(−20,5)
Ces résultats, les graphiques et les graphiques de diagnostic suggèrent tous que la formule de régression complexe fonctionne correctement et réalise quelque chose de différent que les régressions linéaires séparées des parties réelle et imaginaire des variables.
Code
Leβ^
R
code pour créer les données, les ajustements et les tracés apparaît ci-dessous. On notera que la solution réelle de β est obtenu en une seule ligne de code. Un travail supplémentaire - mais pas trop - serait nécessaire pour obtenir la sortie habituelle des moindres carrés: la matrice variance-covariance de l'ajustement, les erreurs standard, les valeurs de p, etc.la source
zapsmall
inR
). Sinon, c'est un signe que quelque chose cloche fondamentalement.Après une longue session Google, j'ai trouvé des informations pertinentes pour comprendre le problème d'une manière alternative. Il s'avère que des problèmes similaires sont quelque peu courants dans le traitement statistique du signal. Au lieu de commencer par une vraisemblance gaussienne qui correspond à un moindre carré linéaire pour des données réelles, on commence par un:
http://en.wikipedia.org/wiki/Complex_normal_distribution
Cette page wikipedia donne un aperçu satisfaisant de cet objet.
Une autre source que j'ai trouvée qui arrive à la même conclusion que whuber, mais explore d'autres estimateurs comme le maximum de vraisemblance est: «Estimations of the Improper Linear Regression Models», de Yan et al.
la source
Alors que @whuber a une réponse magnifiquement illustrée et bien expliquée, je pense que c'est un modèle simplifié qui manque une partie de la puissance de l'espace complexe.
Je suggère que la régression linéaire complexe soit définie comme suit:
Il existe deux différences majeures.
Pour en revenir au modèle réel, la solution des moindres carrés ordinaires sort minimisant la perte, qui est la log-vraisemblance négative. Pour une distribution normale, voici la parabole:
Voici une image de la densité d'une distribution normale complexe:
Cela complique la régression bien que je sois presque sûr que la solution est encore analytique. Je l'ai résolu pour le cas d'une entrée, et je suis heureux de transcrire ma solution ici, mais j'ai le sentiment que whuber pourrait résoudre le cas général.
la source
Ce problème est revenu sur Mathematica StackExchange et ma réponse / commentaire étendu est que l'excellente réponse de @whuber devrait être suivie.
Ma réponse ici est une tentative d'étendre un peu la réponse de @whuber en rendant la structure d'erreur un peu plus explicite. L'estimateur des moindres carrés proposé est celui que l'on utiliserait si la distribution d'erreur bivariée a une corrélation nulle entre les composantes réelle et imaginaire. (Mais les données générées ont une corrélation d'erreur de 0,8.)
Mon point dans tout cela est que le modèle qui convient doit être rendu complètement explicite et que les programmes d'algèbre symbolique peuvent aider à atténuer le désordre. (Et, bien sûr, les estimateurs du maximum de vraisemblance supposent une distribution normale bivariée que les estimateurs des moindres carrés ne supposent pas.)
Annexe: le code Mathematica complet
la source