J'ai trouvé des définitions potentiellement contradictoires pour la statistique de validation croisée (CV) et pour la statistique de validation croisée généralisée (GCV) associée à un modèle linéaire (avec un vecteur d'erreur homoscédastique normal ).ε
D'une part, Golub, Heath & Wahba définissent l'estimation GCV comme (p. 216)
le minimiseur de donné par
où
D'autre part, Efron définit le même concept que (p. 24), mais il attribue l'introduction de ce concept à Craven & Wahba, où sa définition (p. 377) est essentiellement la même comme la définition susmentionnée de Golub, Heath & Wahba.
Est-ce à dire que minimise ?
De même, Golub, Heath & Wahba définissent l'estimation CV de (p. 217) comme le minimiseur de
où est l'estimation
of avec le ème point de données omis.
Les auteurs attribuent l'introduction de l'estimation CV (également appelée estimation PRESS) à Allen ("Allen's PRESS", ibid.). Pourtant, dans l'article d'Allen, l'estimation PRESS est définie (p. 126) comme (dans l'article d'Efron, il est défini comme (p. 24)).
Encore une fois, cela signifie-t-il que minimise ?
Allen, David M. La relation entre la sélection des variables et l'agumentation des données et une méthode de prédiction. Technometrics, Vol. 16, n ° 1 (février 1974), p. 125-127
Craven, Peter et Wahba, Grace. Lissage des données bruyantes avec les fonctions Spline. Numerische Mathematik 31, (1979), p. 377-403
Efron, Bradley. Dans quelle mesure le taux d'erreur apparent d'une régression logistique est-il biaisé? Rapport technique no. 232. Département de statistique, Université de Stanford (avril 1985)
Golub, Gene H., Heath et Grace Wahba. La validation croisée généralisée comme méthode de choix d'un bon paramètre de crête. Technometrics, Vol. 21, n ° 2 (mai 1979), pp. 215-223
la source
Réponses:
Je pense que les commentaires pointent vers la réponse, mais ne la disent pas sans ambages. Je vais donc être franc.
La formule V citée ici est spécifique à la régression linéaire des crêtes. Ils ne disent pas que c'est la même chose que PRESS, ils disent que c'est une version invariante de rotation de PRESS. La partie "invariante en rotation" est ce qui rend cela généralisé.
L'article d'Efron traite de la régression logistique, adaptée à ce contexte. Si vous voulez voir la traduction mathématique entre les deux contextes, le bon livre à lire est Elements of Statistical Learning, 2ed, par Hastie, Tibshirani et Freedman. Ils proposent ce livre gratuitement en ligne: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Une autre lecture utile sur GCV est les modèles additifs généralisés de Simon Wood. Son traitement intègre le GCV en général avec des applications en régression et régression logistique.
Si vous regardez le livre ESL, p 244, vous voyez essentiellement la même symbologie. Ils se réfèrent à ce grand produit matriciel que vous avez en tant que matrice plus lisse (je dirais que c'est une matrice Hat ou un proche cousin). Ils décrivent le Smoother comme le mappage de versS y yy^
Ils proposent une formule pour l' approximation du GCV:
Ce comportement est assez similaire à l'AIC dans de nombreux modèles. La est le nombre effectif de paramètres.traceS
Le pièce que vous citez est plus généralement une trace de . Pour autant que je puisse comprendre, dans l'abstrait GCV est une version approximative de laisser une validation croisée, mais dans certains cas, (je crois que la régression de crête), c'est exact. C'est un point principal dans le papier Golub.nλ S
Bonne chance, réécris si tu en apprends plus.
la source