Valeur attendue de , le coefficient de détermination, sous l'hypothèse nulle

Je suis curieux de la déclaration faite au bas de la première page de ce texte concernant l' ajustement $R^2_\mathrm{adjusted}$

R_{a d j u s t e d}^{2} = 1 - (1 - R^{2}) (\frac{n - 1}{n - m - 1}) .

$R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right).$

Le texte dit:

La logique de l'ajustement est la suivante: en régression multiple ordinaire, un prédicteur aléatoire explique en moyenne une proportion $1/(n – 1)$ de la variation de la réponse, de sorte que $m$ prédicteurs aléatoires expliquent ensemble, en moyenne, $m/(n – 1)$ de la variation de la réponse; en d'autres termes, la valeur attendue de $R^2$ est $\mathbb{E}(R^2) = m/(n – 1)$ . L'application de la formule [ $R^2_\mathrm{adjusted}$ ] à cette valeur, où tous les prédicteurs sont aléatoires, donne $R^2_\mathrm{adjusted} = 0$ "

Cela semble être une motivation très simple et interprétable pour $R^2_\mathrm{adjusted}$ . Cependant, je n'ai pas pu déterminer que $\mathbb{E}(R^2)=1/(n – 1)$ pour un seul prédicteur aléatoire (c'est-à-dire non corrélé).

Quelqu'un pourrait-il me diriger dans la bonne direction ici?

regression expected-value goodness-of-fit r-squared gregory_britten
la source

Dans le cas où le lien disparaîtrait à l'avenir, pourriez-vous fournir une référence complète? Je vous remercie.

Richard Hardy

Réponses:

Il s'agit de statistiques mathématiques précises. Voir cet article pour la dérivation de la distribution de sous l'hypothèse que tous les régresseurs (sauf le terme constant) ne sont pas corrélés avec la variable dépendante ("prédicteurs aléatoires"). $R^2$

Cette distribution est une Bêta, étant le nombre de prédicteurs sans compter le terme constant, et la taille de l'échantillon, $m$ $n$

R^{2} \sim B e t a (\frac{m}{2}, \frac{n - m - 1}{2})

$R^2 \sim Beta\left (\frac {m}{2}, \frac {n-m-1}{2}\right)$

et donc

E (R^{2}) = \frac{m / 2}{(m / 2) + [(n - m - 1) / 2]} = \frac{m}{n - 1}

$E(R^2) = \frac {m/2}{(m/2)+[(n-m-1)/2]} = \frac{m}{n-1}$

Cela semble être un moyen intelligent de "justifier" la logique derrière le ajusté : si en effet tous les régresseurs ne sont pas corrélés, alors le ajusté est "en moyenne" nul. $R^2$ $R^2$

Alecos Papadopoulos
la source

Juste le peu d'informations dont j'avais besoin! Je vous remercie! Et vive Stack Exchange!

gregory_britten

Je serais intéressé par le cas où tous les régresseurs ne sont pas corrélés avec la variable dépendante. Auriez-vous une référence à ce sujet?

Olivier

@Olivier Non, j'en ai bien peur. Regardez sous "F-test pour la signification de la régression, la distribution sous l'alternative", ou quelque chose comme ça.

Alecos Papadopoulos