Test de la différence entre deux (ajusté) r ^ 2

Disons que j'ai deux modèles de régression, un avec trois variables et un avec quatre. Chacun crache un r ^ 2 ajusté, que je peux comparer directement.

De toute évidence, le modèle avec le r ^ 2 ajusté le plus élevé est le meilleur ajustement, mais est-il possible de tester la différence entre les deux r ^ 2 ajustés et d'obtenir une valeur de p?

Je sais que vous pouvez faire un test de Chow pour tester la différence entre les pentes, mais c'est la variance, donc je ne pense pas que c'est ce que je recherche.

Edit: Un modèle ne contient pas simplement un sous-ensemble de variables de l'autre modèle, sinon j'utiliserais probablement une régression pas à pas.

Dans le modèle 1, j'ai quatre variables: W, X, Y et Z.

Dans le modèle 2, j'ai trois variables: W, X et (Y + Z) / 2.

L'idée est que si Y et Z sont conceptuellement similaires, le modèle peut faire de meilleures prévisions en regroupant ces deux variables avant de les entrer dans le modèle.

regression Jeff
la source

Les modèles sont-ils imbriqués (c.-à-d. Les modèles sont-ils les mêmes, à l'exception d'une variable dans le modèle à quatre variables?)

Andy W

Bon Q .. Non, ils ne le sont pas, mais proches. Un modèle utilise quatre variables, WXY et Z. L'autre modèle a trois variables, WX et (Y + Z) / 2. Bien que Y et Z puissent ou non avoir une pondération égale dans le deuxième modèle.

Jeff

vous devez mettre à jour votre question avec ces informations, essayer d'écrire les modèles que vous ajustez mathématiquement et être aussi explicite que possible sur la transformation en "Y et Z" et ce que vous essayez d'accomplir avec cette transformation.

Andy W

Eh bien, restons avec une moyenne simple pour l'instant ... Q a été mis à jour, merci!

Jeff

Oui, les modèles sont imbriqués. Pour voir cela, vous pouvez réécrire le modèle 1 en termes de W, X, (Y + Z) / 2 et (disons) (YZ) / 2, montrant que le modèle 2 élimine simplement une variable.

whuber

Réponses:

Comme l'a dit Whuber, il s'agit en fait d'un modèle imbriqué, et donc on peut appliquer un test de rapport de vraisemblance . Parce qu'il n'est pas encore clair quels modèles vous spécifiez, je vais juste les réécrire dans cet exemple;

Le modèle 1 peut donc être:

$Y = a_1 + B_{11}(X) + B_{12}(W) + B_{13}(Z) + e_1$

Et le modèle 2 peut être (j'ignore la division par 2, mais cette action n'a aucune conséquence pour votre question):

$Y = a_2 + B_{21}(X) + B_{22}(W+Z) + e_2$

Qui peut être réécrit comme:

$Y = a_2 + B_{21}(X) + B_{22}(W) + B_{22}(Z)+ e_2$

Et donc le modèle 2 est un cas spécifique du modèle 1 dans lequel et sont égaux. On peut utiliser le test du rapport de vraisemblance entre ces deux modèles pour attribuer une valeur de p à l'ajustement du modèle 1 par rapport au modèle 2. Il y a de bonnes raisons de le faire, surtout si la corrélation entre W et Z est assez grande ( multicollinéarité ). Comme je l'ai dit précédemment, que vous divisiez par deux n'a pas d'importance pour tester l'ajustement des modèles, bien que s'il est plus facile d'interpréter alors utilise par tous les moyens la moyenne des deux variables. $B_{12}$ $B_{13}$ $\frac{W+Z}{2}$ $W+Z$

Les statistiques d'ajustement des modèles (comme le CP de Mallow déjà mentionné par bill_080, et d'autres exemples sont AIC et BIC ), sont fréquemment utilisées pour évaluer les modèles non imbriqués. Ces statistiques ne suivent pas les distributions connues (comme le fait la vraisemblance logarithmique, le chi carré ) et, par conséquent, les différences dans ces statistiques entre les modèles ne peuvent pas recevoir de valeur p.

Andy W
la source

Jetez un œil au Mallow's Cp:

Mallow's Cp

Voici une question connexe:

Existe-t-il un moyen d'optimiser la régression selon un critère spécifique?

bill_080
la source

Étant donné la configuration de la réponse d'Andy W, si l'on estime le modèle

$Y = a_3 + B_{31}(X) + B_{32}(W+Z) + B_{33}(Z) + e_3$

le test associé à vous donne le test que le modèle 1 est différent du modèle 2. La raison en est que est exactement (une partie du signe) la différence entre et . Ainsi, si leur différence n'est pas significative, conserver W et Z dans le modèle (modèle 1) n'aide pas en termes de variance expliquée par rapport à les combiner en une seule variable (modèle 2). Si est significatif, le modèle 1 est meilleur. $B_{33}$ $B_{33}$ $B_{12}$ $B_{13}$ $B_{33}$

mcfanda
la source

Est-ce que cela répond à la question initiale concernant les différences entre les

R^{2}

$R^2$ ?

Michael R. Chernick

Oui, le test inférentiel sur B_33 équivaut à tester la différence entre les deux R ^ 2 (ajustés ou non) de model1 et model2

mcfanda