Chaconne a fait un excellent travail pour définir les formules de mesures et comment elles sont très étroitement liées d'un point de vue mathématique. Si vous comparez ou classez des modèles en utilisant le même ensemble de données, ces deux mesures sont interchangeables, ce qui signifie que vous obtiendrez exactement le même classement de vos modèles, que vous utilisiez R Square (les classant de haut en bas) ou le RMSE (classant de bas en haut) .
Cependant, les deux mesures ont une signification et une utilisation très différentes. R Square n'est pas seulement une mesure de la qualité de l'ajustement, c'est aussi une mesure de la façon dont le modèle (l'ensemble de variables indépendantes que vous avez sélectionné) explique le comportement (ou la variance) de votre variable dépendante. Donc, si votre modèle a un carré R de 0,60, il explique 60% du comportement de votre variable dépendante. Maintenant, si vous utilisez le carré R ajusté qui pénalise essentiellement le carré R pour le nombre de variables que vous utilisez, vous obtenez une assez bonne idée quand vous devez arrêter d'ajouter des variables à votre modèle (et finalement obtenir simplement un modèle qui est trop adapté). Si votre carré R ajusté est de 0,60. Et, lorsque vous ajoutez une variable supplémentaire, elle augmente simplement à 0,61. Cela ne vaut probablement pas la peine d'ajouter cette variable supplémentaire.
Désormais, le passage à RMSE est aussi communément appelé erreur standard. Son utilisation est complètement différente de celle de R Square. L'erreur standard vous permet de construire des intervalles de confiance autour de votre estimation de régression en supposant le niveau de confiance qui vous intéresse (généralement 99%, 95% ou 90%). En effet, l'erreur standard est l'équivalent d'une valeur Z. Donc, si vous souhaitez créer un IC à 95% autour de votre ligne de tendance de régression, vous multipliez l'erreur standard par 1,96 et générez rapidement une estimation haute et basse comme bordure de votre IC à 95% autour de la ligne de régression.
Ainsi, le carré R (et le carré R ajusté) et l'erreur standard sont extrêmement utiles pour évaluer la robustesse statistique d'un modèle. Et, comme indiqué, ils ont une application pratique complètement différente. On mesure le pouvoir explicatif du modèle. L'autre vous permet de créer des intervalles de confiance. Les deux, des trucs très utiles mais différents.
En ce qui concerne l'évaluation de l'exactitude des prévisions sur des données que vous n'avez pas vues, les deux mesures ont leurs limites ainsi que la plupart des autres mesures auxquelles vous pouvez penser. Sur les nouvelles données hors échantillon, le carré R et l'erreur standard sur l'historique ou l'échantillon d'apprentissage du modèle ne seront pas très utiles. Le contenu hors échantillon n'est qu'un excellent test pour vérifier si votre modèle est surajusté (grand carré R et faible erreur standard, mais mauvaise performance en dehors de l'échantillon) ou non. Je comprends que de meilleures mesures pour les données prospectives (données que vous n'avez pas encore vues) sont le critère d'information, y compris AIC, BIC, SIC. Et le modèle avec les meilleures valeurs de critère d'information devrait mieux gérer les données invisibles, en d'autres termes être plus prédictif. Ces mesures sont étroitement apparentées au concept du carré ajusté R. cependant,