Il y a eu une certaine confusion dans ma tête au sujet de deux types d'estimateurs de la valeur de la population du coefficient de corrélation de Pearson.
A. Fisher (1915) a montré que pour la population normale bivariée, empirique est un estimateur à biais négatif de ρ , bien que le biais ne puisse être pratiquement considérable que pour une petite taille d'échantillon ( n < 30 ). L'échantillon r sous-estime ρ dans le sens où il est plus proche de 0 que ρ . (Sauf lorsque ce dernier est 0 ou ± 1 , car alors r est sans biais.) Plusieurs estimateurs presque sans biais de ρ ont été proposés, le meilleur étant probablementOlkin et Pratt (1958) ont corrigé :
B. On dit que dans la régression observée, surestime la population R au carré correspondant. Ou, avec une régression simple, c'est que r 2 surestime ρ 2 . Sur la base de ce fait, j'ai vu de nombreux textes disant que r est positivement biaisé par rapport à ρ , ce qui signifie une valeur absolue: r est plus éloigné de 0 que ρ (cette affirmation est-elle vraie?). Les textes disent que c'est le même problème que la surestimation du paramètre d'écart type par sa valeur d'échantillon. Il existe de nombreuses formules pour "ajuster" le R 2 observéplus proche de son paramètre de population, le Wherry (1931) étant le plus connu (mais pas le meilleur). La racine d'un tel r 2 adj ajusté est appelée r rétréci :
Deux estimateurs différents de sont présents . Très différent: le premier gonfle r , le second dégonfle r . Comment les réconcilier? Où utiliser / signaler l'un et où - l'autre?
En particulier, peut-il être vrai que l'estimateur "rétréci" est (presque) également sans biais, comme celui "sans biais", mais uniquement dans un contexte différent - dans le contexte asymétrique de la régression. En effet, dans la régression OLS, nous considérons les valeurs d'un côté (le prédicteur) comme fixes, sans erreur aléatoire d'un échantillon à l'autre? (Et pour ajouter ici, la régression n'a pas besoin de normalité bivariée .)
Réponses:
Concernant le biais dans la corrélation: lorsque la taille des échantillons est suffisamment petite pour que le biais ait une signification pratique (par exemple, le n <30 que vous avez suggéré), le biais est probablement le moindre de vos soucis, car l'inexactitude est terrible.
En ce qui concerne le biais de R 2 dans la régression multiple, il existe de nombreux ajustements différents qui se rapportent à une estimation de population sans biais par rapport à une estimation sans biais dans un échantillon indépendant de taille égale. Voir Yin, P. & Fan, X. (2001). Estimation de Rretrait 2 en régression multiple: une comparaison des méthodes analytiques. The Journal of Experimental Education, 69, 203-224.
Les méthodes de régression modernes traitent également du rétrécissement des coefficients de régression ainsi que de R 2 en conséquence - par exemple, le filet élastique avec validation croisée k , voir http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .
la source
Je pense que la réponse est dans le contexte d'une régression simple et d'une régression multiple. En régression simple avec un IV et un DV, le R sq n'est pas positivement biaisé, et en fait peut être biaisé étant donné que r est biaisé négativement. Mais en régression multiple avec plusieurs IV qui peuvent être eux-mêmes corrélés, R sq peut être positivement biaisé à cause de toute "suppression" qui pourrait se produire. Ainsi, mon avis est que R2 observé surestime le carré R de la population correspondante, mais uniquement en régression multiple
la source
R sq is not positively biased, and in-fact may be negatively biased
Intéressant. Pouvez-vous le montrer ou donner une référence? - Dans une population normale bivariée, la statistique Rsq de l'échantillon observé peut-elle être un estimateur biaisé?