Disons que j'ai deux modèles de régression, un avec trois variables et un avec quatre. Chacun crache un r ^ 2 ajusté, que je peux comparer directement.
De toute évidence, le modèle avec le r ^ 2 ajusté le plus élevé est le meilleur ajustement, mais est-il possible de tester la différence entre les deux r ^ 2 ajustés et d'obtenir une valeur de p?
Je sais que vous pouvez faire un test de Chow pour tester la différence entre les pentes, mais c'est la variance, donc je ne pense pas que c'est ce que je recherche.
Edit: Un modèle ne contient pas simplement un sous-ensemble de variables de l'autre modèle, sinon j'utiliserais probablement une régression pas à pas.
Dans le modèle 1, j'ai quatre variables: W, X, Y et Z.
Dans le modèle 2, j'ai trois variables: W, X et (Y + Z) / 2.
L'idée est que si Y et Z sont conceptuellement similaires, le modèle peut faire de meilleures prévisions en regroupant ces deux variables avant de les entrer dans le modèle.
la source
Réponses:
Comme l'a dit Whuber, il s'agit en fait d'un modèle imbriqué, et donc on peut appliquer un test de rapport de vraisemblance . Parce qu'il n'est pas encore clair quels modèles vous spécifiez, je vais juste les réécrire dans cet exemple;
Le modèle 1 peut donc être:
Et le modèle 2 peut être (j'ignore la division par 2, mais cette action n'a aucune conséquence pour votre question):
Qui peut être réécrit comme:
Et donc le modèle 2 est un cas spécifique du modèle 1 dans lequel et sont égaux. On peut utiliser le test du rapport de vraisemblance entre ces deux modèles pour attribuer une valeur de p à l'ajustement du modèle 1 par rapport au modèle 2. Il y a de bonnes raisons de le faire, surtout si la corrélation entre W et Z est assez grande ( multicollinéarité ). Comme je l'ai dit précédemment, que vous divisiez par deux n'a pas d'importance pour tester l'ajustement des modèles, bien que s'il est plus facile d'interpréter alors utilise par tous les moyens la moyenne des deux variables.B12 B13 W+ Z2 W+ Z
Les statistiques d'ajustement des modèles (comme le CP de Mallow déjà mentionné par bill_080, et d'autres exemples sont AIC et BIC ), sont fréquemment utilisées pour évaluer les modèles non imbriqués. Ces statistiques ne suivent pas les distributions connues (comme le fait la vraisemblance logarithmique, le chi carré ) et, par conséquent, les différences dans ces statistiques entre les modèles ne peuvent pas recevoir de valeur p.
la source
Jetez un œil au Mallow's Cp:
Mallow's Cp
Voici une question connexe:
Existe-t-il un moyen d'optimiser la régression selon un critère spécifique?
la source
Étant donné la configuration de la réponse d'Andy W, si l'on estime le modèle
le test associé à vous donne le test que le modèle 1 est différent du modèle 2. La raison en est que est exactement (une partie du signe) la différence entre et . Ainsi, si leur différence n'est pas significative, conserver W et Z dans le modèle (modèle 1) n'aide pas en termes de variance expliquée par rapport à les combiner en une seule variable (modèle 2). Si est significatif, le modèle 1 est meilleur.B33 B33 B12 B13 B33
la source