Quelle est la bonne façon de tester les différences significatives entre les coefficients?

18

J'espère que quelqu'un pourra m'aider à redresser un point de confusion. Disons que je veux tester si 2 ensembles de coefficients de régression sont significativement différents les uns des autres, avec la configuration suivante:

$y_i = \alpha + \beta x_i + \epsilon_i$ , avec 5 variables indépendantes.
2 groupes, de tailles à peu près égales $n_1, n_2$ (bien que cela puisse varier)
Des milliers de régressions similaires seront effectuées simultanément, donc une sorte de correction d'hypothèses multiples doit être effectuée.

Une approche qui m'a été suggérée est d'utiliser un test Z:

$Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)}$

Un autre que j'ai vu suggéré sur ce tableau est d'introduire une variable fictive pour le regroupement et de réécrire le modèle comme:

$y_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i$ , où $g$ est la variable de regroupement, codée 0, 1.

Ma question est la suivante: en quoi ces deux approches sont-elles différentes (par exemple, hypothèses différentes formulées, flexibilité)? Est-ce que l'un est plus approprié que l'autre? Je soupçonne que c'est assez basique, mais toute clarification serait grandement appréciée.

regression hypothesis-testing multiple-regression cashoes
la source

Je pense que les réponses et les commentaires à une question similaire peuvent apporter certains des éclaircissements que vous recherchez.

whuber

Merci whuber. Je connaissais cette réponse. De la discussion ci-dessous la réponse acceptée (et vos commentaires là-bas), j'ai eu l'impression que la comparaison des coefficients de 2 ajustements distincts n'était pas appropriée. Un test z appliqué aux coefficients des ajustements séparés est-il incorrect ou est-ce que le codage des variables fictives est simplement plus facile et fournit une réponse équivalente?

cashoes

1

Veuillez consulter le dernier paragraphe de ma réponse ("La principale limitation ..."). Le test Z est valide en supposant que les

sont grands (sinon utiliser lors du test) et que les écarts-types estimés

ne sont pas trop différents les uns des autres. Aucune des deux approches n'est meilleure lorsque les écarts-types diffèrent beaucoup (plus ou moins un rapport de 3: 1).

n_{i}

$n_i$

S E b_{i}

$SEb_i$

whuber

13

Les deux approches diffèrent.

Supposons que les erreurs types estimées des deux régressions soient et . Ensuite, comme la régression combinée (avec toutes les interactions coefficient-fictif) correspond aux mêmes coefficients, elle a les mêmes résidus, d'où son erreur standard peut être calculée comme $s_1$ $s_2$

s = \sqrt{\frac{(n_{1} - p) s_{1}^{2} + (n_{2} - p) s_{2}^{2})}{n_{1} + n_{2} - 2 p}} .

$s = \sqrt{\frac{(n_1-p) s_1^2 + (n_2-p) s_2^2)}{n_1 + n_2 - 2 p}}.$

Le nombre de paramètres est égal à dans l'exemple: cinq pentes et une intersection dans chaque régression. $p$ $6$

Supposons que estime un paramètre dans une régression, estime le même paramètre dans l'autre régression et estime leur différence dans la régression combinée. Ensuite, leurs erreurs standard sont liées par $b_1$ $b_2$ $b$

S E (b) = s \sqrt{(S E (b_{1}) / s_{1})^{2} + (S E (b_{2}) / s_{2})^{2}} .

$SE(b) = s \sqrt{(SE(b_1)/s_1)^2 + (SE(b_2)/s_2)^2}.$

Si vous n'avez pas effectué la régression combinée, mais ne disposez que de statistiques pour les régressions distinctes, branchez l'équation précédente pour . Ce sera le dénominateur du test t. Évidemment, ce n'est pas le même que le dénominateur présenté dans la question. $s$

L'hypothèse faite par la régression combinée est que les variances des résidus sont essentiellement les mêmes dans les deux régressions distinctes. Si ce n'est pas le cas, cependant, le test z ne sera pas bon non plus (sauf si les tailles d'échantillon sont grandes): vous voudriez utiliser un test CABF ou un test t de Welch-Satterthwaite.

whuber
la source

9

La façon la plus directe de tester une différence de coefficient entre deux groupes est d'inclure un terme d'interaction dans votre régression, ce qui est presque ce que vous décrivez dans votre question. Le modèle que vous exécutez est le suivant:

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

Notez que j'ai inclus la variable de groupe en tant que régresseur distinct dans le modèle. Avec ce modèle, un test avec l'hypothèse nulle est un test des coefficients étant les mêmes entre les deux groupes. Pour voir cela, laissez d'abord dans le modèle ci-dessus. Ensuite, nous obtenons l'équation suivante pour le groupe 0: $t$ $H_0: \delta = 0$ $g_i = 0$

$y_i = \alpha + \beta x_i + \varepsilon_i$

Maintenant, si , alors nous avons: $g_i = 1$

$y_i = (\alpha + \gamma) + (\beta + \delta) x_i + \varepsilon_i$

$\delta$

Matt Blackwell
la source

Merci d'avoir corrigé le modèle (je crois que ma version ci-dessus impose simplement que l'interception soit la même dans les deux groupes ...). Plus précisément, cela serait-il alors équivalent au test z que j'ai publié ci-dessus?

cashoes

y_{i} = α + β x_{i} + γ g_{i} + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \varepsilon_i$ and the one shown in this answer,

y_{i} = α + β x_{i} + γ g_{i} + δ (x_{i} \times g_{i}) + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$ be appropriate?

miura

@matt-blackwell is this conceptually the same as stratifying the model by each value of g? (ie. b would be the coefficient of x when g=0, and beta+delta when g=1) Although I appreciate that stratifying does not allow statistical comparison.

bobmcpop

Quelle est la bonne façon de tester les différences significatives entre les coefficients?

Réponses: