Régression linéaire multivariée vs plusieurs modèles de régression univariée

11

Dans les paramètres de régression univariée, nous essayons de modéliser

y=Xβ+noise

où un vecteur de observations et la matrice de conception avec prédicteurs. La solution est .yRnnXRn×mmβ0=(XTX)1Xy

Dans les paramètres de régression multivariée, nous essayons de modéliser

Y=Xβ+noise

où est une matrice de observations et différentes variables latentes. La solution est .yRn×pnpβ0=(XTX)1XY

Ma question est de savoir comment est-ce différent de l'exécution d' une régression linéaire univariée différente? J'ai lu ici que dans ce dernier cas, nous prenons en considération la corrélation entre les variables dépendantes, mais je ne le vois pas dans les mathématiques.p

Roy
la source
1
Voir le théorème de Frisch-Waugh-Lovell.
rsm
1
@amorfati: Donc, si je comprends bien, ce sont les mêmes. Pourquoi les gens les traitent-ils différemment?
Roy

Réponses:

6

Dans le cadre de la régression linéaire multivariée classique, nous avons le modèle:

Y=Xβ+ϵ

où représente les variables indépendantes, représente les variables à réponses multiples et est un terme de bruit gaussien iid. Le bruit a une moyenne nulle et peut être corrélé entre les variables de réponse. La solution du maximum de vraisemblance pour les poids est équivalente à la solution des moindres carrés (indépendamment des corrélations de bruit) [1] [2]:XYϵ

β^=(XTX)1XTY

Cela revient à résoudre indépendamment un problème de régression distinct pour chaque variable de réponse. Cela peut être vu du fait que la ème colonne de (contenant les poids pour la ème variable de sortie) peut être obtenue en multipliant par le e colonne de (contenant les valeurs de la e variable de réponse).iβ^i(XTX)1XTiYi

Cependant, la régression linéaire multivariée diffère de la résolution séparée des problèmes de régression individuels car les procédures d'inférence statistique tiennent compte des corrélations entre les variables de réponse multiples (par exemple, voir [2], [3], [4]). Par exemple, la matrice de covariance du bruit apparaît dans les distributions d'échantillonnage, les statistiques de test et les estimations d'intervalle.

Une autre différence émerge si nous permettons à chaque variable de réponse d'avoir son propre ensemble de covariables:

Yi=Xiβi+ϵi

où représente la ème variable de réponse, et et représentent son ensemble correspondant de covariables et de terme de bruit. Comme ci-dessus, les termes de bruit peuvent être corrélés entre les variables de réponse. Dans ce contexte, il existe des estimateurs qui sont plus efficaces que les moindres carrés et ne peuvent être réduits à résoudre des problèmes de régression distincts pour chaque variable de réponse. Par exemple, voir [1].YiiXiϵi

Les références

  1. Zellner (1962) . Une méthode efficace d'estimation des régressions apparemment sans rapport et des tests de biais d'agrégation.
  2. Helwig (2017) . Régression linéaire multivariée [Diapositives]
  3. Fox et Weisberg (2011) . Modèles linéaires multivariés dans R. [Annexe à: Un compagnon R pour la régression appliquée]
  4. Maitra (2013) . Modèles de régression linéaire multivariée. [Diapositives]
user20160
la source
1
Merci, c'est plus clair maintenant. Avez-vous une référence pour cette formulation? Je n'ai rencontré que la forme la moins carrée. Aussi, connaissez-vous un package Python qui l'implémente?
Roy
1
Deuxièmement, la demande de référence. Prend-on la corrélation pour être juste la covariance des résultats, ou apprend-on une sorte de covariance conditionnelle?
generic_user
Je ne suis pas sûr à 100% que @ user20160 faisait référence à ceux-ci, mais je pense qu'ils pensaient à des équations / des équations d'estimation généralisées. EE / GEE sont cohérents lorsque la structure de covariance est mal spécifiée et vous pouvez également définir la structure de covariance attendue. Cependant, ces modèles sont estimés de manière itérative par opposition à OLS avec une forme fermée. Vous devriez pouvoir estimer GEE / EE en Python mais je ne connais pas les packages.
iacobus
1
@Roy J'ai réécrit la réponse et ajouté des références. Mon message d'origine supposait que le cas est maintenant le dernier paragraphe du message révisé. J'essaierai d'ajouter plus de détails plus tard.
user20160