Statistiques PRESS pour la régression des crêtes

9

Dans les moindres carrés ordinaires, en régressant un vecteur cible contre un ensemble de prédicteurs , la matrice de chapeau est calculée commeyX

H=X(XtX)-1Xt

et la PRESSE (somme résiduelle prédite des carrés) est calculée par

SSP=je(eje1-hjeje)2

où est le ème résiduel et sont les éléments diagonaux de la matrice chapeau.ejejehjeje

En régression de crête avec coefficient de pénalité λ, la matrice de chapeau est modifiée pour être

H=X(XtX+λje)-1Xt

La statistique PRESS peut-elle être calculée de la même manière, en utilisant la matrice chapeau modifiée?

Chris Taylor
la source

Réponses:

7

oui, j'utilise beaucoup cette méthode pour la régression de la crête du noyau, et c'est un bon moyen de sélectionner le paramètre de la crête (voir par exemple cet article [doi , preprint] ).

Une recherche du paramètre de crête optimal peut être rendue très efficace si les calculs sont effectués sous forme canonique (voir par exemple cet article ), où le modèle est re-paramétré de sorte que l'inverse d'une matrice diagonale soit requis.

Dikran Marsupial
la source
Merci. D'après votre expérience, si vous utilisez PRESS pour sélectionner le paramètre de crête, comment votre erreur de prédiction réelle sur un ensemble de test se compare-t-elle à votre PRESS mesurée sur l'ensemble d'entraînement? Vraisemblablement (PRESS / n) est une sous-estimation de l'erreur de prédiction, mais est-elle fiable dans la pratique?
Chris Taylor
1
La PRESSE est approximativement non biaisée, le vrai problème avec elle est la variance, ce qui signifie qu'il y a beaucoup de variabilité en fonction de l'échantillon particulier de données sur lequel elle est évaluée. Cela signifie que si vous optimisez PRESS dans la sélection de modèle, vous pouvez sur-ajuster le critère de sélection de modèle et vous retrouver avec un modèle médiocre. Cependant, pour le type de modèle qui m'intéresse (méthodes d'apprentissage du noyau), il est assez efficace et le problème de variance ne semble pas être bien pire que les autres critères qui pourraient fonctionner mieux.
Dikran Marsupial
En cas de doute, vous pouvez toujours utiliser l'ensachage en plus de la régression des crêtes comme une sorte d'approche «ceinture et bretelles» pour éviter le sur-ajustement.
Dikran Marsupial
Merci de votre aide! J'avais l'impression que l'ensachage n'apportait aucune amélioration aux modèles linéaires, par exemple, comme le prétend l'article Wikipedia ? Pouvez-vous clarifier?
Chris Taylor
aucun problème. Je soupçonne que l'article Wikipedia est incorrect, la sélection de sous-ensembles en régression linéaire est l'un des exemples que Brieman utilise dans l'article original sur Bagging. Il est possible que la régression linéaire des moindres carrés sans sélection de sous-ensemble ne soit pas affectée de manière asymptotique par l'ensachage, mais même dans ce cas, je doute qu'elle s'applique aux modèles linéaires plus généralement (comme la régression logistique).
Dikran Marsupial
0

L'approche suivante peut être adoptée pour appliquer la régularisation L2 et obtenir la statistique PRESS. La méthode utilise une approche d'augmentation des données.

Supposons que vous ayez N échantillons de Y et K variables explicatives X1, X2 ... Xk .... XK

  1. Ajouter une variable supplémentaire X0 qui a 1 sur les N échantillons
  2. Augmentez avec K échantillons supplémentaires où:
    • La valeur Y est 0 pour chacun des K échantillons
    • La valeur X0 est 0 pour chacun des K échantillons
    • La valeur Xk est SQRT (Lambda * N) * [STDEV (Xk) sur N échantillons] si en diagonale et 0 sinon
  3. Il y a maintenant N + K échantillons et K + 1 variables. Une régression linéaire normale peut être résolue avec ces entrées.
  4. Comme il s'agit d'une régression effectuée en une étape, la statistique PRESS peut être calculée comme normale.
  5. L'entrée de régularisation Lambda doit être décidée. La révision des statistiques PRESS pour les différentes entrées de Lambada peut aider à déterminer une valeur appropriée.
James65
la source