Ratatinée

22

Il y a eu une certaine confusion dans ma tête au sujet de deux types d'estimateurs de la valeur de la population du coefficient de corrélation de Pearson.

A. Fisher (1915) a montré que pour la population normale bivariée, empirique est un estimateur à biais négatif de ρ , bien que le biais ne puisse être pratiquement considérable que pour une petite taille d'échantillon ( n < 30 ). L'échantillon r sous-estime ρ dans le sens où il est plus proche de 0 que ρ . (Sauf lorsque ce dernier est 0 ou ± 1 , car alors r est sans biais.) Plusieurs estimateurs presque sans biais de ρ ont été proposés, le meilleur étant probablementrρn<30rρ0ρ0±1rρOlkin et Pratt (1958) ont corrigé :r

runbiased=r[1+1r22(n3)]

B. On dit que dans la régression observée, surestime la population R au carré correspondant. Ou, avec une régression simple, c'est que r 2 surestime ρ 2 . Sur la base de ce fait, j'ai vu de nombreux textes disant que r est positivement biaisé par rapport à ρ , ce qui signifie une valeur absolue: r est plus éloigné de 0 que ρ (cette affirmation est-elle vraie?). Les textes disent que c'est le même problème que la surestimation du paramètre d'écart type par sa valeur d'échantillon. Il existe de nombreuses formules pour "ajuster" le R 2 observéR2r2ρ2rρr0ρR2plus proche de son paramètre de population, le Wherry (1931) étant le plus connu (mais pas le meilleur). La racine d'un tel r 2 adj ajusté est appelée r rétréci :Radj2radj2 r

rshrunk=±1(1r2)n1n2

Deux estimateurs différents de sont présents . Très différent: le premier gonfle r , le second dégonfle r . Comment les réconcilier? Où utiliser / signaler l'un et où - l'autre?ρrr

En particulier, peut-il être vrai que l'estimateur "rétréci" est (presque) également sans biais, comme celui "sans biais", mais uniquement dans un contexte différent - dans le contexte asymétrique de la régression. En effet, dans la régression OLS, nous considérons les valeurs d'un côté (le prédicteur) comme fixes, sans erreur aléatoire d'un échantillon à l'autre? (Et pour ajouter ici, la régression n'a pas besoin de normalité bivariée .)

ttnphns
la source
Je me demande si cela se résume à quelque chose basé sur l'inégalité de Jensen. Cela, et la normalité bivariée est probablement une mauvaise hypothèse dans la plupart des cas.
shadowtalker
1
De plus, ma compréhension du problème dans B. est que la régression est une surestimation car l'ajustement de régression peut être amélioré arbitrairement en ajoutant des prédicteurs. Cela ne me semble pas être le même problème que dans A.r2
shadowtalker
Est-il vrai que est une estimation positivement biaisée de ρ 2 pour toutes les valeurs de ρ ? Pour la distribution normale bivariée, cela ne semble pas être le cas pour ρ assez grand. r2ρ2ρρ
NRH
Le biais peut-il aller dans la direction opposée pour le carré d'un estimateur? Par exemple, avec un estimateur plus simple, peut - il montrer que pour certaines gammes de θ ? Je pense que ce serait difficile à faire si θ = ρ , mais peut-être qu'un exemple plus simple pourrait être élaboré. E[θ^θ]<0<E[θ^2θ2]θθ=ρ
Anthony

Réponses:

1

Concernant le biais dans la corrélation: lorsque la taille des échantillons est suffisamment petite pour que le biais ait une signification pratique (par exemple, le n <30 que vous avez suggéré), le biais est probablement le moindre de vos soucis, car l'inexactitude est terrible.

En ce qui concerne le biais de R 2 dans la régression multiple, il existe de nombreux ajustements différents qui se rapportent à une estimation de population sans biais par rapport à une estimation sans biais dans un échantillon indépendant de taille égale. Voir Yin, P. & Fan, X. (2001). Estimation de Rretrait 2 en régression multiple: une comparaison des méthodes analytiques. The Journal of Experimental Education, 69, 203-224.

Les méthodes de régression modernes traitent également du rétrécissement des coefficients de régression ainsi que de R 2 en conséquence - par exemple, le filet élastique avec validation croisée k , voir http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .

Fred Oswald
la source
1
Je ne sais pas si cela répond vraiment à la question
shadowtalker
1

Je pense que la réponse est dans le contexte d'une régression simple et d'une régression multiple. En régression simple avec un IV et un DV, le R sq n'est pas positivement biaisé, et en fait peut être biaisé étant donné que r est biaisé négativement. Mais en régression multiple avec plusieurs IV qui peuvent être eux-mêmes corrélés, R sq peut être positivement biaisé à cause de toute "suppression" qui pourrait se produire. Ainsi, mon avis est que R2 observé surestime le carré R de la population correspondante, mais uniquement en régression multiple

Dingus
la source
1
R sq is not positively biased, and in-fact may be negatively biasedIntéressant. Pouvez-vous le montrer ou donner une référence? - Dans une population normale bivariée, la statistique Rsq de l'échantillon observé peut-elle être un estimateur biaisé?
ttnphns
Je pense que tu as tort. Pourriez-vous donner une référence pour sauvegarder votre réclamation?
Richard Hardy
Désolé, mais c'était plus un exercice de réflexion, donc je n'ai aucune référence.
Dingus
Je partais du commentaire A ci-dessus, où Fischer a montré que dans une situation normale bivariée, r est un estimateur à biais négatif de rho. Si tel est le cas, ne s'ensuivrait-il pas que R sq est également biaisé négativement?
Dingus
Peut-être que cela facilitera la conversation digitalcommons.unf.edu/cgi/…
Dingus