Quelle est la relation entre le R au carré et la valeur de p dans une régression?

17

tl; dr - pour la régression OLS, un R au carré plus élevé implique-t-il également une valeur P plus élevée? Spécifiquement pour une seule variable explicative (Y = a + bX + e) ​​mais serait également intéressé de connaître pour n plusieurs variables explicatives (Y = a + b1X + ... bnX + e).

Contexte - J'effectue une régression OLS sur une gamme de variables et j'essaie de développer la meilleure forme fonctionnelle explicative en produisant un tableau contenant les valeurs R au carré entre les linéaires, logarithmiques, etc., les transformations de chaque variable explicative (indépendante) et la variable de réponse (dépendante). Cela ressemble un peu à:

Nom de variable - forme linéaire-- --ln (variable) --exp (variable) - ... etc

Variable 1 ------- R au carré ---- R au carré ---- R au carré -
... etc ...

Je me demande si le R au carré est approprié ou si les valeurs P seraient meilleures. Vraisemblablement, il existe une certaine relation, car une relation plus significative impliquerait un pouvoir explicatif plus élevé, mais vous ne savez pas si cela est vrai de manière rigoureuse.

question économétrique
la source
5
Également intéressant: le R ^ 2 est-il utile ou dangereux? .
whuber

Réponses:

15

La réponse est non, il n'y a pas une telle relation régulière entre et la valeur de p de régression globale, car R 2 dépend autant de la variance des variables indépendantes que de la variance des résidus (auxquels il est inversement proportionnelle), et vous êtes libre de modifier la variance des variables indépendantes par des montants arbitraires.R2R2

À titre d'exemple, considérons tout ensemble de données multivariées avec i indexant les observations et supposons que l'ensemble de valeurs de la première variable indépendante, { x i 1 } , a un maximum unique x séparé de la deuxième valeur la plus élevée par un montant positif ϵ . Appliquer une transformation non linéaire de la première variable qui envoie toutes les valeurs inférieures à((xi1,xi2,,xip,yi))i{xi1}xϵ dans la plage [ 0 , 1 ] et envoie x lui-même à une grande valeur M 1 . Pour un tel M, cela peut être fait par une transformation Box-Cox appropriée (mise à l'échelle) x a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , par exemple, donc nous ne parlons pas de quelque chose d'étrange ou de «pathologique». Ensuite, comme Mxϵ/2[0,1]xM1Mxa((xx0)λ1)/(λ1))Maugmente arbitrairement, s'approche de 1 aussi près que vous le souhaitez, quelle que soit la gravité de l'ajustement, car la variance des résidus sera limitée tandis que la variance de la première variable indépendante est asymptotiquement proportionnelle à M 2 .R21M2


Vous devriez plutôt utiliser des tests d'ajustement (entre autres techniques) pour sélectionner un modèle approprié dans votre exploration: vous devez vous soucier de la linéarité de l'ajustement et de l' homoscédasticité des résidus. Et ne prenez pas de valeurs p de la régression résultante sur la confiance: elles finiront par être presque dénuées de sens après que vous ayez effectué cet exercice, car leur interprétation suppose que le choix d'exprimer les variables indépendantes ne dépendait pas des valeurs de la variable dépendante du tout, ce qui n'est pas du tout le cas ici.

whuber
la source
10

Cette réponse ne traite pas directement de la question centrale; ce n'est rien de plus que des informations supplémentaires qui sont trop longues pour un commentaire.

Je le signale parce que la question économétrique rencontrera sans aucun doute cette information, ou quelque chose comme ça à un moment donné (indiquant que et R 2 sont liés) et je me demande si les informations fournies dans d'autres réponses ici sont fausses - ce n'est pas faux - mais je pense il vaut mieux être clair sur ce qui se passe.FR2

Il existe une relation dans un ensemble particulier de circonstances; si vous tenez le nombre d'observations et le nombre de prédicteurs fixés pour un modèle donné, est en fait monotone dans R 2 , puisqueFR2

F=R2/(k1)(1R2)/(Nk)

(Si vous divisez le numérateur et le dénominateur par et retirez les constantes de k , vous pouvez voir que 1 / F 1 / R 2 - 1 si vous maintenez N et k constants.)R2k1/F1/R21Nk

Étant donné que pour df fixe et la valeur p sont monotones, R 2 et la valeur p sont également monotones.FR2p

Mais changez presque tout sur le modèle, et cette relation ne tient pas compte des nouvelles circonstances.

Par exemple, ajouter un point rend plus grand et en supprimer un le rend plus petit mais faire l'une ou l'autre peut augmenter ou diminuer R 2 , donc il semble que F et R 2 ne se déplacent pas nécessairement ensemble si vous ajoutez ou supprimez des données. L'ajout d'une variable diminue ( N - k ) / ( k - 1 ) mais augmente R 2 (et vice-versa), donc encore une fois, R 2 n'est pas nécessairement lié à(Nk)/(k1)R2FR2 (Nk)/(k1)R2R2 quand tu fais ça.F

De toute évidence, une fois que vous comparez les valeurs et p à travers des modèles ayant des caractéristiques différentes, cette relation ne tient pas nécessairement, comme le prouve le cas dans le cas des transformations non linéaires.R2p

Glen_b -Reinstate Monica
la source
Je ne suis pas en désaccord avec vous, mais il semble que vous répondiez à une question différente de la mienne. Il a fallu un peu de lecture, mais j'ai conclu que la question demande quelle relation, le cas échéant, existe entre et R 2pR2 lorsque (caeteris paribus) les variables indépendantes sont transformées de façon non linéaire. Ce n'est que lorsque ces variables restent inchangées - ou, tout au plus, transformées linéairement entre elles - que nous pouvons dire quoi que ce soit sur une telle relation. Cela fait partie du sens dans lequel je pense que votre qualificatif "pour un modèle donné" doit être compris.
whuber
Je réponds à une autre question; et je crois que votre interprétation de la signification est correcte. J'étais plus inquiet qu'un problème tel que celui que j'ai soulevé ne prête à confusion s'il n'était pas expliqué. Tous mes points tiennent, à ma connaissance. (Maintenant, je crains, en fait, que ma réponse ne serve peut-être pas à clarifier, comme je l'avais espéré, mais qu'elle brouille simplement le problème. Pensez-vous qu'il existe une modification appropriée qui pourrait l'aider? Dois-je la supprimer?)
Glen_b -Reinstate Monica
Je détesterais le voir supprimé, Glen. Si vous avez l’intention d’apporter des modifications, pensez à indiquer plus explicitement sur quels aspects de ce problème vous écrivez ( par exemple, , ce que vous entendez précisément par un «modèle donné» et ce que vous avez en tête à propos des modèles ayant des «caractéristiques différentes»). C'est dans cet esprit (collaboratif, pas critique) dans lequel j'ai proposé mon commentaire.
whuber
Je ne me suis pas senti critiqué - vous avez semblé clarifier et rien de plus - mais la nécessité de cela met en évidence une insuffisance de la réponse qui m'inquiétait avant que vous ne commentiez. L'imprécision de `` différentes caractéristiques '' est parce que c'est une chose assez générale - varier beaucoup de choses (je donne même des exemples de quelque chose d'aussi simple que de supprimer un point ou d'ajouter une variable pour illustrer combien peu de choses doivent changer) peut rendre cette relation monotone évaporer. Je vais réfléchir à ce que je pourrais dire de plus.
Glen_b -Reinstate Monica
+1 pour l'édition: ce sont des commentaires précieux et il est particulièrement utile de voir la formule pour F
3

"pour la régression OLS, un R au carré plus élevé implique-t-il également une valeur P plus élevée? Spécifiquement pour une seule variable explicative (Y = a + bX + e)"

R2FtR2ptR2

|t|=R2(1R2)(n2)

nR2t

"mais serait également intéressé de connaître pour n plusieurs variables explicatives (Y = a + b1X + ... bnX + e)."

La réponse est la même, mais au lieu de regarder une seule variable, nous regardons maintenant toutes les variables ensemble - d'où la Fstatistique, comme l'a montré Glen_b. Et ici, vous devez corriger les deuxnet le nombre de paramètres. Ou, pour mieux dire, fixez les degrés de liberté.

Contexte - J'effectue une régression OLS sur une série de variables et j'essaie de développer la meilleure forme fonctionnelle explicative (...)

Ok, donc c'est en fait un problème différent. Si vous recherchez la meilleure forme fonctionnelle explicative, vous devriez également jeter un œil aux techniques de validation croisée . Même siR2 est la quantité d'intérêt pour votre problème (ce n'est généralement pas le cas), trouver le meilleur ajustement dans l'échantillon peut être très trompeur - vous voulez généralement que vos résultats se généralisent hors de l'échantillon, et une validation croisée appropriée peut vous aider à ne pas suréquiper trop vos données.

Et ici, je suppose que vous voulez un pouvoir "prédictif" (puisque vous dites que vous voulez trouver "la meilleure forme fonctionnelle explicative"). Si vous voulez faire une inférence causale, par exemple, alors leR2 ou d'autres mesures de performance prédictives sont de peu d'utilité sans une connaissance plus structurelle / substantielle du problème.

Carlos Cinelli
la source