Tester l'égalité des coefficients de deux régressions différentes

44

Cela semble être un problème fondamental, mais je viens de me rendre compte que je ne sais pas comment tester l’égalité des coefficients de deux régressions différentes. Quelqu'un peut-il nous éclairer?

Plus formellement, supposons que j’ai exécuté les deux régressions suivantes: et où fait référence à la matrice de de la régression et au vecteur des coefficients de la régression . Notez que et sont potentiellement très différents, avec des dimensions différentes, etc. Je m'intéresse par exemple à savoir si .y 2 = X 2 β 2 + ε 2 X i i β i i X 1 X 2

y1=X1β1+ϵ1
y2=X2β2+ϵ2
XiiβiiX1X2β^11β^21

Si ceux-ci venaient de la même régression, ce serait trivial. Mais comme ils viennent de différents pays, je ne sais pas trop comment le faire. Quelqu'un a-t-il une idée ou peut-il me donner des indications?

Mon problème en détail: ma première intuition a été de regarder les intervalles de confiance, et s’ils se chevauchent, je dirais qu’ils sont essentiellement les mêmes. Cette procédure ne vient toutefois pas avec la taille correcte du test (chaque intervalle de confiance individuel a , par exemple, mais leur examen conjoint n'aura pas la même probabilité). Ma "seconde" intuition était de réaliser un test t normal. C'est, prenezα=0.05

β11β21sd(β11)

où est pris comme valeur de mon hypothèse nulle. Cela ne prend cependant pas en compte l’incertitude d’estimation de et la réponse peut dépendre de l’ordre des régressions (que j’appelle 1 et 2). β 21β21β21

Ma troisième idée était de procéder comme dans un test standard pour l’égalité de deux coefficients de la même régression, c’est-à-dire que prendre

β11β21sd(β11β21)

La complication est due au fait que les deux proviennent de régressions différentes. Notez que

Var(β11β21)=Var(β11)+Var(β21)2Cov(β11,β21)
mais depuis comment puis-je obtenir ?Cov(β11,β21)

Cela m'a amené à poser cette question ici. Ce doit être une procédure standard / test standard, mais je ne trouve rien qui soit suffisamment similaire à ce problème. Donc, si quelqu'un peut m'indiquer la procédure correcte, je vous en serais très reconnaissant!

coffeinjunky
la source
2
Cela semble être lié à la modélisation structurelle / simultanée. Une façon de résoudre ce problème consiste à ajuster les deux équations simultanément, par exemple avec un maximum de vraisemblance, puis à utiliser un test du rapport de vraisemblance d’un modèle contraint (modèle à paramètres égaux) par rapport à un modèle non contraint. En pratique, cela peut être fait avec le logiciel SEM (Mplus, lavaan, etc.)
tomka
2
Connaissez-vous la régression apparemment sans rapport (SUR)?
Dimitriy V. Masterov
2
Je pense que la question que vous soulevez, à savoir comment obtenir le cov de deux coefficients, est résolue par SEM, ce qui vous donnerait la matrice var-cov de tous les coefficients. Ensuite, vous pouvez éventuellement utiliser un test de Wald de la manière que vous avez suggérée au lieu d’un test de TLR. En outre, vous pouvez également utiliser le ré-échantillonnage / bootstrap, qui peut être plus direct.
Tomka
3
Oui, vous avez raison à ce sujet, @tomka. Dans un modèle SUR (que vous pouvez en gros considérer comme un cas particulier de modèle SEM), je peux obtenir le test approprié. Merci de m'avoir orienté dans cette direction! Je pense que je n'y ai pas pensé car cela ressemble un peu à tirer un moineau avec un canon, mais je ne peux en effet pas penser à un meilleur moyen. Si vous écrivez une réponse, je la marquerai comme étant correcte. Sinon, je le rédigerai moi-même bientôt, avec une explication théorique rapide et éventuellement avec un exemple.
Coffeinjunky
1
SUR est assez facile à mettre en œuvre. Voici un exemple avec Stata . Avec R, vous voulez systemfit .
Dimitriy V. Masterov

Réponses:

30

Bien que cette analyse ne soit pas courante, elle en est une d’intérêt. La réponse acceptée correspond à la façon dont vous avez posé votre question, mais je vais vous proposer une autre technique raisonnablement bien acceptée, qui peut ne pas être équivalente (je laisserai les meilleurs avis pour le commenter).

Cette approche consiste à utiliser le test Z suivant:

Z=β1β2(SEβ1)2+(SEβ2)2

SEββ

βbβ

russellpierce
la source
Voir aussi: stats.stackexchange.com/questions/55501/…
russellpierce le
β1β2
Z=Aβ1Bβ2(SEAβ1)2+(SEBβ2)2
1
De plus, je remarque que le document traite du cas où un modèle est imbriqué dans un autre et où les DV de deux modèles sont identiques. Et si ces deux conditions ne sont pas remplies? Au lieu de cela, j'ai matrices de conception des deux modèles sont les mêmes, mais ils ont différents DV. Cette formule est-elle toujours valable? Merci beaucoup!
Sibbs Gambling
1
@SibbsGambling: Vous voudrez peut-être faire de cette question une question à part entière pour attirer davantage l'attention.
russellpierce
β1β2
12

Pour les personnes ayant une question similaire, laissez-moi vous donner un aperçu simple de la réponse.

y1y2

(y1y2)=(X1  00  X2)(β1β2)+(e1e2)

Cela conduira à une matrice de variance-covariance qui permet de tester l'égalité des deux coefficients.

coffeinjunky
la source
11
J'ai mis en œuvre la manière que vous avez suggérée et comparée avec la méthode ci-dessus. J'ai trouvé que la différence clé est de savoir si l'hypothèse selon laquelle la variance d'erreur est la même ou non. Votre chemin suppose que la variance d'erreur est la même et la voie ci-dessus ne le suppose pas.
KH Kim
2
Cela a bien fonctionné pour moi. Dans Stata, j’ai fait quelque chose du genre: L’ expand =2, generate(indicator); generate y = cond(indicator, y2, y1); regress y i.indicator##c.X, vce(cluster id); utilisation de comptes d’erreurs standard en cluster pour le fait que e1 et e2 ne sont pas indépendants pour la même observation après l’empilement du jeu de données.
Wkschwartz
1
  • Var(β1β2)=Var(β1)+Var(β2)

  • covar(β1,β2)0

  • (Clogg, CC, E. Petkova et A. Haritou (1995). Méthodes statistiques pour comparer les coefficients de régression entre modèles. American Journal of Sociology, 100 (5), 1261-1293.) Présente une réponse dans le cas particulier d’équations imbriquées (c.-à-d. pour obtenir la deuxième équation, considérons la première et ajoutons quelques variables explicatives). Ils disent que c’est facile à mettre en œuvre.

  • Si je comprends bien, dans ce cas particulier, un test de Haussman peut également être mis en œuvre. La principale différence est que leur test considère comme vraie la deuxième équation (complète), alors que le test de Haussman considère comme vraie la première équation.

  • Notez que Clogg et al (1995) ne convient pas aux données de panel. Mais leur test a été généralisé par (Yan, J., Aseltine Jr, RH et Harel, O. (2013). Comparaison des coefficients de régression entre des modèles linéaires imbriqués pour des données en grappes et des équations d'estimation généralisées. Journal of Educational and Behavioral Statistics, 38 (2), 172-189.) Avec un paquet fourni dans R: geepack Voir: https://www.jstor.org/stable/pdf/41999419.pdf?refreqid=excelsior%3Aa0a3b20f2bc68223edb59e3254c234be&seq=1

Et (pour le paquet R): https://cran.r-project.org/web/packages/geepack/index.html

Alexandre Cazenave-Lacroutz
la source