J'espère que quelqu'un pourra m'aider à redresser un point de confusion. Disons que je veux tester si 2 ensembles de coefficients de régression sont significativement différents les uns des autres, avec la configuration suivante:
- , avec 5 variables indépendantes.
- 2 groupes, de tailles à peu près égales (bien que cela puisse varier)
- Des milliers de régressions similaires seront effectuées simultanément, donc une sorte de correction d'hypothèses multiples doit être effectuée.
Une approche qui m'a été suggérée est d'utiliser un test Z:
Un autre que j'ai vu suggéré sur ce tableau est d'introduire une variable fictive pour le regroupement et de réécrire le modèle comme:
, où est la variable de regroupement, codée 0, 1.
Ma question est la suivante: en quoi ces deux approches sont-elles différentes (par exemple, hypothèses différentes formulées, flexibilité)? Est-ce que l'un est plus approprié que l'autre? Je soupçonne que c'est assez basique, mais toute clarification serait grandement appréciée.
Réponses:
Les deux approches diffèrent.
Supposons que les erreurs types estimées des deux régressions soient et s 2 . Ensuite, comme la régression combinée (avec toutes les interactions coefficient-fictif) correspond aux mêmes coefficients, elle a les mêmes résidus, d'où son erreur standard peut être calculée commes1 s2
Le nombre de paramètres est égal à 6 dans l'exemple: cinq pentes et une intersection dans chaque régression.p 6
Supposons que estime un paramètre dans une régression, b 2 estime le même paramètre dans l'autre régression et b estime leur différence dans la régression combinée. Ensuite, leurs erreurs standard sont liées parb1 b2 b
Si vous n'avez pas effectué la régression combinée, mais ne disposez que de statistiques pour les régressions distinctes, branchez l'équation précédente pour . Ce sera le dénominateur du test t. Évidemment, ce n'est pas le même que le dénominateur présenté dans la question.s
L'hypothèse faite par la régression combinée est que les variances des résidus sont essentiellement les mêmes dans les deux régressions distinctes. Si ce n'est pas le cas, cependant, le test z ne sera pas bon non plus (sauf si les tailles d'échantillon sont grandes): vous voudriez utiliser un test CABF ou un test t de Welch-Satterthwaite.
la source
La façon la plus directe de tester une différence de coefficient entre deux groupes est d'inclure un terme d'interaction dans votre régression, ce qui est presque ce que vous décrivez dans votre question. Le modèle que vous exécutez est le suivant:
Notez que j'ai inclus la variable de groupe en tant que régresseur distinct dans le modèle. Avec ce modèle, un test avec l'hypothèse nulle H 0 : δ = 0 est un test des coefficients étant les mêmes entre les deux groupes. Pour voir cela, laissez d'abord g i = 0 dans le modèle ci-dessus. Ensuite, nous obtenons l'équation suivante pour le groupe 0:t H0:δ=0 gi=0
Maintenant, si , alors nous avons:gi=1
la source