tl; dr - pour la régression OLS, un R au carré plus élevé implique-t-il également une valeur P plus élevée? Spécifiquement pour une seule variable explicative (Y = a + bX + e) mais serait également intéressé de connaître pour n plusieurs variables explicatives (Y = a + b1X + ... bnX + e).
Contexte - J'effectue une régression OLS sur une gamme de variables et j'essaie de développer la meilleure forme fonctionnelle explicative en produisant un tableau contenant les valeurs R au carré entre les linéaires, logarithmiques, etc., les transformations de chaque variable explicative (indépendante) et la variable de réponse (dépendante). Cela ressemble un peu à:
Nom de variable - forme linéaire-- --ln (variable) --exp (variable) - ... etc
Variable 1 ------- R au carré ---- R au carré ---- R au carré -
... etc ...
Je me demande si le R au carré est approprié ou si les valeurs P seraient meilleures. Vraisemblablement, il existe une certaine relation, car une relation plus significative impliquerait un pouvoir explicatif plus élevé, mais vous ne savez pas si cela est vrai de manière rigoureuse.
la source
Réponses:
La réponse est non, il n'y a pas une telle relation régulière entre et la valeur de p de régression globale, car R 2 dépend autant de la variance des variables indépendantes que de la variance des résidus (auxquels il est inversement proportionnelle), et vous êtes libre de modifier la variance des variables indépendantes par des montants arbitraires.R2 R2
À titre d'exemple, considérons tout ensemble de données multivariées avec i indexant les observations et supposons que l'ensemble de valeurs de la première variable indépendante, { x i 1 } , a un maximum unique x ∗ séparé de la deuxième valeur la plus élevée par un montant positif ϵ . Appliquer une transformation non linéaire de la première variable qui envoie toutes les valeurs inférieures à((xi1,xi2,…,xip,yi)) i {xi1} x∗ ϵ dans la plage [ 0 , 1 ] et envoie x ∗ lui-même à une grande valeur M ≫ 1 . Pour un tel M, cela peut être fait par une transformation Box-Cox appropriée (mise à l'échelle) x → a ( ( x - x 0 ) λ - 1 ) / ( λ - 1 ) ) , par exemple, donc nous ne parlons pas de quelque chose d'étrange ou de «pathologique». Ensuite, comme Mx∗−ϵ/2 [0,1] x∗ M≫1 M x→a((x−x0)λ−1)/(λ−1)) M augmente arbitrairement, s'approche de 1 aussi près que vous le souhaitez, quelle que soit la gravité de l'ajustement, car la variance des résidus sera limitée tandis que la variance de la première variable indépendante est asymptotiquement proportionnelle à M 2 .R2 1 M2
Vous devriez plutôt utiliser des tests d'ajustement (entre autres techniques) pour sélectionner un modèle approprié dans votre exploration: vous devez vous soucier de la linéarité de l'ajustement et de l' homoscédasticité des résidus. Et ne prenez pas de valeurs p de la régression résultante sur la confiance: elles finiront par être presque dénuées de sens après que vous ayez effectué cet exercice, car leur interprétation suppose que le choix d'exprimer les variables indépendantes ne dépendait pas des valeurs de la variable dépendante du tout, ce qui n'est pas du tout le cas ici.
la source
Cette réponse ne traite pas directement de la question centrale; ce n'est rien de plus que des informations supplémentaires qui sont trop longues pour un commentaire.
Je le signale parce que la question économétrique rencontrera sans aucun doute cette information, ou quelque chose comme ça à un moment donné (indiquant que et R 2 sont liés) et je me demande si les informations fournies dans d'autres réponses ici sont fausses - ce n'est pas faux - mais je pense il vaut mieux être clair sur ce qui se passe.F R2
Il existe une relation dans un ensemble particulier de circonstances; si vous tenez le nombre d'observations et le nombre de prédicteurs fixés pour un modèle donné, est en fait monotone dans R 2 , puisqueF R2
(Si vous divisez le numérateur et le dénominateur par et retirez les constantes de k , vous pouvez voir que 1 / F ∝ 1 / R 2 - 1 si vous maintenez N et k constants.)R2 k 1/F∝1/R2−1 N k
Étant donné que pour df fixe et la valeur p sont monotones, R 2 et la valeur p sont également monotones.F R2 p
Mais changez presque tout sur le modèle, et cette relation ne tient pas compte des nouvelles circonstances.
Par exemple, ajouter un point rend plus grand et en supprimer un le rend plus petit mais faire l'une ou l'autre peut augmenter ou diminuer R 2 , donc il semble que F et R 2 ne se déplacent pas nécessairement ensemble si vous ajoutez ou supprimez des données. L'ajout d'une variable diminue ( N - k ) / ( k - 1 ) mais augmente R 2 (et vice-versa), donc encore une fois, R 2 n'est pas nécessairement lié à(N−k)/(k−1) R2 F R2 (N−k)/(k−1) R2 R2 quand tu fais ça.F
De toute évidence, une fois que vous comparez les valeurs et p à travers des modèles ayant des caractéristiques différentes, cette relation ne tient pas nécessairement, comme le prouve le cas dans le cas des transformations non linéaires.R2 p
la source
La réponse est la même, mais au lieu de regarder une seule variable, nous regardons maintenant toutes les variables ensemble - d'où laF statistique, comme l'a montré Glen_b. Et ici, vous devez corriger les deuxn et le nombre de paramètres. Ou, pour mieux dire, fixez les degrés de liberté.
Ok, donc c'est en fait un problème différent. Si vous recherchez la meilleure forme fonctionnelle explicative, vous devriez également jeter un œil aux techniques de validation croisée . Même siR2 est la quantité d'intérêt pour votre problème (ce n'est généralement pas le cas), trouver le meilleur ajustement dans l'échantillon peut être très trompeur - vous voulez généralement que vos résultats se généralisent hors de l'échantillon, et une validation croisée appropriée peut vous aider à ne pas suréquiper trop vos données.
Et ici, je suppose que vous voulez un pouvoir "prédictif" (puisque vous dites que vous voulez trouver "la meilleure forme fonctionnelle explicative"). Si vous voulez faire une inférence causale, par exemple, alors leR2 ou d'autres mesures de performance prédictives sont de peu d'utilité sans une connaissance plus structurelle / substantielle du problème.
la source