Jackknife contre LOOCV

15

Y a-t-il vraiment une différence entre le jackknife et laisser une validation croisée? La procédure semble identique ai-je raté quelque chose?

Wintermute
la source

Réponses:

11

Lors de la validation croisée, vous calculez une statistique sur le ou les échantillons laissés de côté. Le plus souvent, vous prédisez le ou les échantillons laissés de côté par un modèle basé sur les échantillons conservés. En jackknifing, vous calculez une statistique à partir des échantillons conservés uniquement.

Tommy L
la source
4
Je ne comprends pas comment cette réponse parle au LOOCV dans la question d'origine. Dans quel sens peut-on "calculer une statistique" sur une seule observation laissée de côté?
Alexis
12

Jackknife fait souvent référence à 2 processus liés mais différents, qui s'appuient tous deux sur une approche de non-retour - conduisant à cette confusion même.

Dans un contexte, le jackknife peut être utilisé pour estimer les paramètres de population et leurs erreurs de normes. Par exemple, pour utiliser une approche jackknife pour estimer la pente et l'ordonnée à l'origine d'un modèle de régression simple, on pourrait:

  1. Estimez la pente et interceptez en utilisant toutes les données disponibles.
  2. Oubliez 1 observation et estimez la pente et l'ordonnée à l'origine (également appelée «estimation partielle» des coefficients).
  3. Calculez la différence entre "l'estimation partielle" et l'estimation "toutes les données" de la pente et de l'ordonnée à l'origine (également connue sous le nom de "pseudo-valeur" des coefficients).
  4. Répétez les étapes 2 et 3 pour l'ensemble des données.
  5. Calculez la moyenne des pseudo-valeurs pour chaque coefficient - ce sont les estimations jackknife de la pente et de l'ordonnée à l'origine

Les pseudo-valeurs et les estimations jackknife des coefficients peuvent également être utilisées pour déterminer les erreurs standard et donc les intervalles de confiance. En règle générale, cette approche donne des intervalles de confiance plus larges pour les coefficients, car il s'agit d'une meilleure mesure d'incertitude, plus conservatrice. En outre, cette approche peut également être utilisée pour obtenir une estimation jackknife du biais pour les coefficients.

Dans l'autre contexte, jackknife est utilisé pour évaluer les performances du modèle. Dans ce cas, jackknife = validation croisée à laisser-un-out. Les deux font référence à la suppression d'une observation de l'ensemble de données d'étalonnage, au recalibrage du modèle et à la prévision de l'observation qui a été omise. Essentiellement, chaque observation est prédite en utilisant ses «estimations partielles» des prédicteurs.

Voici un petit article intéressant sur jackknife que j'ai trouvé en ligne: https://www.utdallas.edu/~herve/abdi-Jackknife2010-pretty.pdf

jcmb
la source
1
À moins que je ne me trompe (et je peux très bien l'être), votre premier contexte décrit la validation croisée avec laisser-un-out .
Alexis
2
Je séparais juste les idées d'estimation des paramètres à l'aide de LOO par rapport à l'estimation de la valeur qui était laissée de côté (comme dans LOOCV). Je les vois comme deux processus liés mais légèrement différents, mais peut-être que les deux peuvent être appelés LOOCV? Je pourrais aussi me tromper.
jcmb le