Je souhaite obtenir une estimation non biaisée de dans une régression linéaire multiple.
À la réflexion, je peux penser à deux valeurs différentes qu'une estimation non biaisée de pourrait essayer de faire correspondre.
- Hors échantillon : le carré r qui serait obtenu si l'équation de régression obtenue à partir de l'échantillon (c'est-à-dire ) était appliquée à une quantité infinie de données externes à l'échantillon mais à partir des mêmes données processus de génération.
- Population : Le carré r qui serait obtenu si un échantillon infini était obtenu et le modèle ajusté à cet échantillon infini (c.-à-d. ) ou alternativement juste le carré R impliqué par le processus de génération de données connu.
Je comprends que ajusté est conçu pour compenser le sur-ajustement observé dans l'échantillon . Néanmoins, il n'est pas clair si ajusté est réellement une estimation sans biais de , et s'il s'agit d'une estimation sans biais, laquelle des deux définitions de ci-dessus il vise à estimer.
Ainsi, mes questions:
- Qu'est-ce qu'une estimation impartiale de ce que j'appelle ci-dessus sur l'échantillon ?
- Qu'est-ce qu'une estimation impartiale de ce que j'appelle au-dessus de la population ?
- Y a-t-il des références qui fournissent une simulation ou une autre preuve de l'impartialité?
estimation
multiple-regression
r-squared
bias
Jeromy Anglim
la source
la source
Réponses:
Évaluation des ajustements analytiques au carré R
Leurs résultats sont résumés dans l'abstrait:
où N est la taille de l'échantillon et p est le nombre de prédicteurs.
Estimations empiriques des ajustements du carré R
Les références
la source