Comment choisir entre les différentes formules

15

Je pense aux formules ajustées au R proposées par:

  • Ezekiel (1930), qui je crois est celui actuellement utilisé dans SPSS.

    Runejuste2=1-(N-1)(N-p-1)(1-R2)
  • Olkin et Pratt (1958)

    Runbiased2=1(N3)(1R2)(Np1)2(N3)(1R2)2(Np1)(Np+1)

Dans quelles circonstances (le cas échéant) devrais-je préférer «ajusté» à «impartial» ?R2

Les références

  1. Ezekiel, M. (1930). Méthodes d'analyse de corrélation . John Wiley and Sons, New York.
  2. Olkin I., Pratt JW (1958). Estimation impartiale de certains coefficients de corrélation. Annals of Mathematical Statistics , 29 (1), 201-211.
user1205901 - Réintégrer Monica
la source

Réponses:

5

Sans vouloir prendre le crédit de la réponse de @ttnphns, je voulais retirer la réponse des commentaires (en particulier compte tenu du fait que le lien vers l'article était mort). La réponse de Matt Krause fournit une discussion utile sur la distinction entre et R 2 a d j mais elle ne discute pas la décision de la formule R 2 a d j à utiliser dans un cas donné.R2Radj2Radj2

Comme je l'explique dans cette réponse , Yin et Fan (2001) donnent un bon aperçu des nombreuses formules différentes d'estimation de la variance de la population expliquées , qui pourraient toutes être qualifiées de type de R 2 ajusté .ρ2R2

Ils effectuent une simulation pour évaluer laquelle parmi une large gamme de formules ajustées du carré r fournit la meilleure estimation non biaisée pour différentes tailles d'échantillon, et les intercorrélations des prédicteurs. Ils suggèrent que la formule Pratt peut être une bonne option, mais je ne pense pas que l'étude était définitive sur la question.ρ2

Mise à jour: Raju et al (1997) notent que les formules de ajustées diffèrent selon qu'elles sont conçues pour estimer le R 2 ajusté en supposant des prédicteurs x fixe ou x aléatoire. Plus précisément, la formule Ezekial est conçue pour estimer ρ 2 dans le contexte x fixe, et les formules Olkin-Pratt et Pratt sont conçues pour estimer ρ 2 dans le contexte x aléatoire. Il n'y a pas beaucoup de différence entre les formules Olkin-Pratt et Pratt. Les hypothèses x fixes s'alignent sur les expériences planifiées, les hypothèses x aléatoires s'alignent lorsque vous supposez que les valeurs des variables prédictives sont un échantillon de valeurs possibles, comme c'est généralement le cas dans les études d'observation. VoirR2R2ρ2ρ2cette réponse pour une discussion plus approfondie . Il n'y a pas non plus beaucoup de différence entre les deux types de formules car la taille des échantillons devient modérément grande (voir ici pour une discussion sur la taille de la différence ).

Résumé des règles générales

  • Si vous supposez que vos observations pour les variables prédictives sont un échantillon aléatoire d'une population et que vous souhaitez estimer pour la population complète des prédicteurs et du critère (c.-à-d. L'hypothèse aléatoire x), utilisez la formule Olkin-Pratt (ou la formule de Pratt).ρ2
  • Si vous supposez que vos observations sont fixes ou que vous ne voulez pas généraliser au-delà de vos niveaux observés du prédicteur, alors estimez avec la formule d'Ezéchiel.ρ2
  • Si vous souhaitez en savoir plus sur la prédiction hors échantillon à l'aide de l'équation de régression de l'échantillon, vous voudrez peut-être examiner une forme de procédure de validation croisée.

Les références

  • Raju, Nouvelle-Écosse, Bilgic, R., Edwards, JE et Fleer, PF (1997). Examen de la méthodologie: estimation de la validité et de la validité croisée de la population, et utilisation de poids égaux dans les prévisions. Mesure psychologique appliquée, 21 (4), 291-305.
  • Yin, P. et Fan, X. (2001). Estimation du retrait en régression multiple: une comparaison des différentes méthodes analytiques. The Journal of Experimental Education, 69 (2), 203-224. PDFR2
Jeromy Anglim
la source
13

Le choix de ou ajusté R 2 dépend de ce que vous essayez de faire. Dans un contexte de régression, le R 2 régulier est utilisé comme mesure de la qualité de l'ajustement pour votre modèle. Cependant, imaginez que vous comparez plusieurs modèles qui ont différents nombres de paramètres. Toutes choses étant égales par ailleurs, le modèle avec plus de paramètres correspondra mieux à votre observation. Dans la limite, vous pourriez avoir un modèle avec des paramètres pour chaque point de données mais un; cela vous donnerait un ajustement parfait sur vos observations, mais serait inutile pour de nouvelles prédictions car il capturerait à la fois le «signal» sous-jacent ET tout bruit associé. Le R 2 ajusté est une tentative de résoudre ce problème en ajustant le RR2R2R2R2 valeur en fonction du nombre de paramètres dans le modèle.R2

Ils ont donc des finalités légèrement différentes. décrit dans quelle mesure différents ensembles de données correspondent à un modèle. Vous pourriez écrire quelque chose comme "Le modèle décrit ci-dessus prédit avec précision les performances de la partie A ( r 2 = 0,9), mais pas le widget B ( r 2 = 0,05) dans des conditions de test standard." Le R 2 ajusté décrit dans quelle mesure différents modèles correspondent aux mêmes données (ou données similaires). Par exemple, «Les résultats des questionnaires court et long ont également prédit les dépenses annuelles des clients ( R 2 ajusté = 0,8 pour les deux)».R2r2r2R2R2

Matt Krause
la source
2
Merci, j'ai trouvé que c'était une explication très claire de la différence entre le R au carré et le R au carré ajusté. À votre avis, comment le R-carré impartial s'intègre-t-il dans cette image?
user1205901
5
Il existe en effet différentes formules pour estimer la population R ^ 2. Voir par exemple studyforquals.pbworks.com/f/yin.pdf . On dit que le «R ^ 2 ajusté» de Fisher (= Wherry) est légèrement biaisé négativement (il dépend toujours de la taille de l'échantillon sans dépendre du nombre de prédicteurs), donc la version Olkin-Pratt est probablement un peu meilleure.
ttnphns
1
@ttnphns, cela devrait peut-être être une réponse plutôt qu'un commentaire. Pour moi, cela semble répondre à la question d'origine plus qu'à cette réponse.
gung - Réintégrer Monica
1
R2R2
1
@ttnphns, je suis d'accord avec Gung! Vous devez rédiger une réponse et prendre un certain crédit. Pouvez-vous également confirmer ce que j'ai écrit? JStor agit étrangement aujourd'hui et ne me laisse pas lire le document original d'Olkin et Pratt.
Matt Krause