Sans vouloir prendre le crédit de la réponse de @ttnphns, je voulais retirer la réponse des commentaires (en particulier compte tenu du fait que le lien vers l'article était mort). La réponse de Matt Krause fournit une discussion utile sur la distinction entre et R 2 a d j mais elle ne discute pas la décision de la formule R 2 a d j à utiliser dans un cas donné.R2R2adjR2adj
Comme je l'explique dans cette réponse , Yin et Fan (2001) donnent un bon aperçu des nombreuses formules différentes d'estimation de la variance de la population expliquées , qui pourraient toutes être qualifiées de type de R 2 ajusté .ρ2R2
Ils effectuent une simulation pour évaluer laquelle parmi une large gamme de formules ajustées du carré r fournit la meilleure estimation non biaisée pour différentes tailles d'échantillon, et les intercorrélations des prédicteurs. Ils suggèrent que la formule Pratt peut être une bonne option, mais je ne pense pas que l'étude était définitive sur la question.ρ2
Mise à jour: Raju et al (1997) notent que les formules de ajustées diffèrent selon qu'elles sont conçues pour estimer le R 2 ajusté en supposant des prédicteurs x fixe ou x aléatoire. Plus précisément, la formule Ezekial est conçue pour estimer ρ 2 dans le contexte x fixe, et les formules Olkin-Pratt et Pratt sont conçues pour estimer ρ 2 dans le contexte x aléatoire. Il n'y a pas beaucoup de différence entre les formules Olkin-Pratt et Pratt. Les hypothèses x fixes s'alignent sur les expériences planifiées, les hypothèses x aléatoires s'alignent lorsque vous supposez que les valeurs des variables prédictives sont un échantillon de valeurs possibles, comme c'est généralement le cas dans les études d'observation. VoirR2R2ρ2ρ2cette réponse pour une discussion plus approfondie . Il n'y a pas non plus beaucoup de différence entre les deux types de formules car la taille des échantillons devient modérément grande (voir ici pour une discussion sur la taille de la différence ).
Résumé des règles générales
- Si vous supposez que vos observations pour les variables prédictives sont un échantillon aléatoire d'une population et que vous souhaitez estimer pour la population complète des prédicteurs et du critère (c.-à-d. L'hypothèse aléatoire x), utilisez la formule Olkin-Pratt (ou la formule de Pratt).ρ2
- Si vous supposez que vos observations sont fixes ou que vous ne voulez pas généraliser au-delà de vos niveaux observés du prédicteur, alors estimez avec la formule d'Ezéchiel.ρ2
- Si vous souhaitez en savoir plus sur la prédiction hors échantillon à l'aide de l'équation de régression de l'échantillon, vous voudrez peut-être examiner une forme de procédure de validation croisée.
Les références
- Raju, Nouvelle-Écosse, Bilgic, R., Edwards, JE et Fleer, PF (1997). Examen de la méthodologie: estimation de la validité et de la validité croisée de la population, et utilisation de poids égaux dans les prévisions. Mesure psychologique appliquée, 21 (4), 291-305.
- Yin, P. et Fan, X. (2001). Estimation du retrait en régression multiple: une comparaison des différentes méthodes analytiques. The Journal of Experimental Education, 69 (2), 203-224. PDFR2