Dans The Elements of Statistical Learning , j'ai trouvé l'énoncé suivant:
Il y a une qualification: les étapes initiales de dépistage non supervisé peuvent être effectuées avant de laisser des échantillons. Par exemple, nous pourrions sélectionner les 1000 prédicteurs présentant la variance la plus élevée parmi les 50 échantillons, avant de commencer la validation croisée. Étant donné que ce filtrage n'implique pas les étiquettes de classe, il ne donne pas aux prédicteurs un avantage injuste.
Est-ce réellement valable? Je veux dire, en filtrant les attributs au préalable, nous n'imitons pas les données d'entraînement / le nouvel environnement de données - est-ce donc important que le filtrage que nous effectuons ne soit pas supervisé? N'est-il pas préférable de faire toutes les étapes de prétraitement dans le cadre du processus de validation croisée? Si ce n'est pas le cas, cela signifie que tout le prétraitement non supervisé peut être effectué à l'avance, y compris la normalisation des fonctionnalités / PCA, etc. Mais en faisant cela sur l'ensemble de l'ensemble de formation, nous perdons en fait certaines données dans l'ensemble de formation. Je peux convenir qu'avec un ensemble de données relativement stable, ces différences devraient très probablement être minimes - mais cela ne signifie pas qu'elles n'existent pas, non? Quelle est la bonne façon d'y penser?
Je prie de différer dans cette question avec l'opinion de @ AmiTavory ainsi qu'avec les éléments de l'apprentissage statistique.
Venant d'un domaine appliqué avec des tailles d'échantillon très faibles, j'ai l'expérience que des étapes de prétraitement non supervisées peuvent introduire un biais sévère.
Dans mon domaine, ce serait le plus souvent l'ACP pour la réduction de la dimensionnalité avant la formation d'un classificateur. Bien que je ne puisse pas montrer les données ici, j'ai vu PCA + (cross validated LDA) vs cross validated (PCA + LDA) sous-estimer le taux d'erreur d'environ un ordre de grandeur . (Il s'agit généralement d'un indicateur que l'APC n'est pas stable.)
En ce qui concerne l'argumentation «avantage indu» des éléments, si l'on examine la variance des cas de test + test, nous nous retrouvons avec des fonctionnalités qui fonctionnent bien avec les cas de formation et de test. Ainsi, nous créons ici une prophétie auto-réalisatrice qui est la cause du parti pris trop optimiste. Ce biais est faible si vous avez des tailles d'échantillon raisonnablement confortables.
Je recommande donc une approche légèrement plus conservatrice que les Elements:
Cela étant dit, la valorisation croisée n'est également qu'un raccourci pour effectuer une étude de validation appropriée. Ainsi, vous pouvez discuter de l'aspect pratique:
Vous pouvez vérifier si le prétraitement en question donne des résultats stables (vous pouvez le faire par exemple par validation croisée). Si vous le trouvez déjà parfaitement stable avec des échantillons de taille inférieure, à mon humble avis, vous pouvez faire valoir que peu de biais seront introduits en le retirant de la validation croisée.
Cependant, pour citer un superviseur précédent: Le temps de calcul n'est pas un argument scientifique.
Je vais souvent pour un "aperçu" de quelques plis et quelques itérations pour la validation croisée pour m'assurer que tout le code (y compris le résumé / les graphiques des résultats) puis le laisse pendant la nuit ou le week-end ou ainsi de suite sur le serveur pour un validation croisée plus fine.
la source