La normalisation des données (pour avoir une moyenne nulle et un écart-type unitaire) avant d'effectuer une validation croisée multipliée par k a-t-elle des conséquences négatives telles qu'un sur-ajustement?
Remarque: c'est pour une situation où #cases> total #features
Je transforme certaines de mes données à l'aide d'une transformation de journal, puis normalise toutes les données comme ci-dessus. J'effectue ensuite la sélection des fonctionnalités. Ensuite, j'applique les fonctionnalités sélectionnées et les données normalisées à une validation croisée répétée de 10 fois pour essayer d'estimer les performances du classificateur généralisé et je crains que l'utilisation de toutes les données pour normaliser ne soit pas appropriée. Dois-je normaliser les données de test pour chaque pli en utilisant les données de normalisation obtenues à partir des données d'entraînement pour ce pli?
Toutes les opinions reçues avec reconnaissance! Toutes mes excuses si cette question semble évidente.
Edit: En testant cela (conformément aux suggestions ci-dessous), j'ai trouvé que la normalisation avant CV ne faisait pas beaucoup de différence en termes de performances par rapport à la normalisation dans CV.
la source
La validation croisée est mieux perçue comme une méthode pour estimer la performance d'une procédure statistique, plutôt que comme un modèle statistique. Ainsi, afin d'obtenir une estimation de performance impartiale, vous devez répéter chaque élément de cette procédure séparément dans chaque pli de la validation croisée, ce qui inclurait la normalisation. Je dirais donc normaliser dans chaque pli.
La seule fois où cela ne serait pas nécessaire, c'est si la procédure statistique était complètement insensible à l'échelle et à la valeur moyenne des données.
la source
Je pense que si la normalisation n'implique que deux paramètres et que vous avez un bon échantillon de taille ce ne sera pas un problème. Je serais plus préoccupé par la transformation et le processus de sélection des variables. La validation croisée 10 fois semble être à la mode aujourd'hui. Est-ce que personne n'utilise le bootstrap 632 ou 632+ pour l'estimation du taux d'erreur du classificateur comme suggéré d'abord par Efron (1983) dans JASA et suivi plus tard dans un article d'Efron et Tibshirani avec le 632+?
la source
J'aime personnellement la méthode .632. Qui est essentiellement boostrapping avec remplacement. Si vous faites cela et supprimez les doublons, vous obtiendrez 632 entrées sur un ensemble de 1000 entrées.
la source