Les statistiques de validation croisée (CV) et de validation croisée généralisée (GCV)

J'ai trouvé des définitions potentiellement contradictoires pour la statistique de validation croisée (CV) et pour la statistique de validation croisée généralisée (GCV) associée à un modèle linéaire (avec un vecteur d'erreur homoscédastique normal ). $Y = X\boldsymbol\beta + \boldsymbol\varepsilon$ $\boldsymbol\varepsilon$

D'une part, Golub, Heath & Wahba définissent l'estimation GCV $\hat{\lambda}$ comme (p. 216)

le minimiseur de $V\left(\lambda\right)$ donné par
$V (λ) = \frac{\frac{1}{n} {‖ (I - A (λ)) y ‖}^{2}}{{(\frac{1}{n} t r (I - A (λ)))}^{2}}$ $V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2}$ où $A\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T$

D'autre part, Efron définit le même concept que $V\left(0\right)$ (p. 24), mais il attribue l'introduction de ce concept à Craven & Wahba, où sa définition (p. 377) est essentiellement la même comme la définition susmentionnée de Golub, Heath & Wahba.

Est-ce à dire que $0$ minimise $V\left(\lambda\right)$ ?

De même, Golub, Heath & Wahba définissent l'estimation CV de $\lambda$ (p. 217) comme le minimiseur de

P (λ) = \frac{1}{n} \sum_{k = 1}^{n} {({[X β^{(k)} (λ)]}_{k} - y_{k})}^{2}

$P\left(\lambda\right) = \frac{1}{n}\sum_{k=1}^n \left(\left[X \beta^{(k)}\left(\lambda\right)\right]_k - y_k\right)^2$

où $\beta^{\left(k\right)}\left(\lambda\right)$ est l'estimation

\hat{β} (λ) = {(X^{T} X + n λ I)}^{- 1} X^{T} y

$\hat{\beta}\left(\lambda\right) = \left(X^T X + n \lambda I\right)^{-1} X^T y$

of $\beta$ avec le $k$ ème point de données $y_i$ omis.

Les auteurs attribuent l'introduction de l'estimation CV (également appelée estimation PRESS) à Allen ("Allen's PRESS", ibid.). Pourtant, dans l'article d'Allen, l'estimation PRESS est définie (p. 126) comme $n P\left(0\right)$ (dans l'article d'Efron, il est défini comme $P\left(0\right)$ (p. 24)).

Encore une fois, cela signifie-t-il que $0$ minimise $P\left(\lambda\right)$ ?

Allen, David M. La relation entre la sélection des variables et l'agumentation des données et une méthode de prédiction. Technometrics, Vol. 16, n ° 1 (février 1974), p. 125-127
Craven, Peter et Wahba, Grace. Lissage des données bruyantes avec les fonctions Spline. Numerische Mathematik 31, (1979), p. 377-403
Efron, Bradley. Dans quelle mesure le taux d'erreur apparent d'une régression logistique est-il biaisé? Rapport technique no. 232. Département de statistique, Université de Stanford (avril 1985)
Golub, Gene H., Heath et Grace Wahba. La validation croisée généralisée comme méthode de choix d'un bon paramètre de crête. Technometrics, Vol. 21, n ° 2 (mai 1979), pp. 215-223

cross-validation Evan Aad
la source

Avez-vous oublié de mentionner que cela sera équipé d'une régression de crête et non des moindres carrés? J'étais totalement confus quant à ce qu'était jusqu'à ce que je voie les titres papier en bas

λ

$\lambda$

shadowtalker

Supprimez la validation croisée généralisée dans le titre et ajoutez la régression de crête dans le titre. Voici ce que GridSearchCV () utilise par défaut pour RidgeCV ():

HoofarLotusX

Réponses:

Je pense que les commentaires pointent vers la réponse, mais ne la disent pas sans ambages. Je vais donc être franc.

La formule V citée ici est spécifique à la régression linéaire des crêtes. Ils ne disent pas que c'est la même chose que PRESS, ils disent que c'est une version invariante de rotation de PRESS. La partie "invariante en rotation" est ce qui rend cela généralisé.

L'article d'Efron traite de la régression logistique, adaptée à ce contexte. Si vous voulez voir la traduction mathématique entre les deux contextes, le bon livre à lire est Elements of Statistical Learning, 2ed, par Hastie, Tibshirani et Freedman. Ils proposent ce livre gratuitement en ligne: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Une autre lecture utile sur GCV est les modèles additifs généralisés de Simon Wood. Son traitement intègre le GCV en général avec des applications en régression et régression logistique.

Si vous regardez le livre ESL, p 244, vous voyez essentiellement la même symbologie. Ils se réfèrent à ce grand produit matriciel que vous avez en tant que matrice plus lisse (je dirais que c'est une matrice Hat ou un proche cousin). Ils décrivent le Smoother comme le mappage de vers $S$ $y$ $\hat{y}$

\hat{y} = S y

$\hat{y}=S y$

$S$ peut être utilisé pour calculer les valeurs de CV, une pour chaque ligne des données. Pour les modèles linéaires , la matrice joue le rôle de la matrice Hat dans les diagnostics de régression. Cependant, ils disent qu'il peut être difficile ou inutile de calculer cela, et l'approche GCV est une version légèrement plus générale de la même idée. $S$

Ils proposent une formule pour l' approximation du GCV:

G C V (\hat{f}) = \frac{1}{N} \sum_{i = 1}^{N} {[\frac{y_{i} - \hat{f} (x_{i})}{1 - t r a c e (S) / N}]}^{2}

$GCV(\hat{f})=\frac{1}{N}\sum_{i=1}^{N}\left[\frac{y_i - \hat{f}(x_i)}{1-trace(S)/N}\right]^2$

Ce comportement est assez similaire à l'AIC dans de nombreux modèles. La est le nombre effectif de paramètres. $trace{S}$

Le pièce que vous citez est plus généralement une trace de . Pour autant que je puisse comprendre, dans l'abstrait GCV est une version approximative de laisser une validation croisée, mais dans certains cas, (je crois que la régression de crête), c'est exact. C'est un point principal dans le papier Golub. $n\lambda$ $S$

Bonne chance, réécris si tu en apprends plus.

pauljohn32
la source

Merci. J'ai posté ma question il y a plus de 5 ans, et depuis lors, j'ai oublié la plupart de ce matériel, donc je ne peux pas évaluer votre réponse pour dire si elle est bonne (ce qu'elle semble être) ou mauvaise, et, pour cette raison Je ne peux pas l'accepter non plus. Merci d'avoir posté, cependant. J'espère que cela sera utile pour ceux qui pourraient découvrir cette page.

Evan Aad