Je recommande de consulter «7.10.2 La mauvaise et la bonne façon de procéder à la validation croisée» dans http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .
Les auteurs donnent un exemple dans lequel quelqu'un fait ce qui suit:
- Filtrer les prédicteurs: trouver un sous-ensemble de «bons» prédicteurs qui présentent une corrélation assez forte (univariée) avec les étiquettes de classe
- En utilisant uniquement ce sous-ensemble de prédicteurs, créez un classifieur multivarié.
- Utiliser la validation croisée pour estimer les paramètres de réglage inconnus et pour estimer l'erreur de prédiction du modèle final
Cela ressemble beaucoup à la réalisation de l'EDA sur toutes les données (c'est-à-dire la formation plus le test) et à l'utilisation de l'EDA pour sélectionner de «bons» prédicteurs.
Les auteurs expliquent pourquoi cela pose problème: le taux d'erreur de validation croisée sera artificiellement bas, ce qui pourrait vous induire en erreur en vous faisant croire que vous avez trouvé un bon modèle.
L'application de l'EDA sur les données de test est incorrecte.
La formation est le processus consistant à rechercher les bonnes réponses pour créer le meilleur modèle. Ce processus ne se limite pas à l'exécution de code sur les données de formation. L'utilisation des informations de l'EDA pour décider du modèle à utiliser, pour modifier les paramètres, etc. fait partie du processus de formation et ne devrait donc pas avoir accès aux données de test. Pour être fidèle à vous-même, utilisez les données de test uniquement pour vérifier les performances de votre modèle.
De plus, si vous réalisez que le modèle ne fonctionne pas bien pendant les tests et que vous revenez ensuite à l'ajustement de votre modèle, ce n'est pas bon non plus. Au lieu de cela, divisez vos données d'entraînement en deux. Utilisez-en un pour la formation et un autre pour tester et modifier vos modèles. Voir Quelle est la différence entre l'ensemble de test et l'ensemble de validation?
la source
Après le paragraphe de cette réponse . Hastie explique plus loin p.245 :
la source
Vous effectuez l'EDA sur l'ensemble des données. Par exemple, si vous utilisez la validation croisée avec abandon , comment feriez-vous l'EDA uniquement sur un ensemble de données de formation ? Dans ce cas, chaque observation s'entraîne et se maintient au moins une fois.
Donc, non, vous formez votre compréhension des données sur l'ensemble de l'échantillon. Si vous êtes dans la configuration industrielle, c'est encore plus évident. Vous êtes censé montrer les tendances et la description générale des données aux parties prenantes de l'entreprise, et vous le faites sur l'ensemble de l'échantillon.
la source