L'implémentation de la validation croisée influence-t-elle ses résultats?

9

Comme vous le savez, il existe deux types populaires de validation croisée, le pliage en K et le sous-échantillonnage aléatoire (comme décrit dans Wikipedia ). Néanmoins, je sais que certains chercheurs rédigent et publient des articles où quelque chose qui est décrit comme un CV plié en K est en effet un sous-échantillonnage aléatoire, donc dans la pratique, vous ne savez jamais ce qui se trouve réellement dans l'article que vous lisez.
Habituellement, bien sûr, la différence est imperceptible, et ainsi va ma question - pouvez-vous penser à un exemple où le résultat d'un type est significativement différent d'un autre?


la source

Réponses:

4

Vous pouvez certainement obtenir des résultats différents simplement parce que vous vous entraînez sur différents exemples. Je doute fort qu'il existe un algorithme ou un domaine problématique où les résultats des deux différeraient d'une manière prévisible.

bmargulies
la source
Je voulais dire des résultats sensiblement différents. Je pense aussi qu'il n'y en a pas, du moins l'exemple du monde réel. Pourtant, je pense que je vais attendre encore un peu.
3

Habituellement, bien sûr, la différence est imperceptible, et ainsi va ma question - pouvez-vous penser à un exemple où le résultat d'un type est significativement différent d'un autre?

Je ne suis pas du tout sûr que la différence soit imperceptible, et que ce n'est que dans un exemple ad hoc qu'elle sera perceptible. Les méthodes de validation croisée et de bootstrap (sous-échantillonnage) dépendent de manière critique de leurs paramètres de conception, et cette compréhension n'est pas encore terminée. En général, les résultats dans k fois la validation croisée dépendent essentiellement du nombre de plis, de sorte que vous pouvez toujours attendre des résultats différents de ce que vous observer dans le sous-échantillonnage.

Exemple: disons que vous avez un vrai modèle linéaire avec un nombre fixe de paramètres. Si vous utilisez la validation croisée k-fold (avec un k donné, fixe) et laissez le nombre d'observations aller à l'infini, la validation croisée k-fold sera asymptotiquement incohérente pour la sélection du modèle, c'est-à-dire qu'elle identifiera un modèle incorrect avec probabilité supérieure à 0. Ce résultat surprenant est dû à Jun Shao, "Linear Model Selection by Cross-Validation", Journal of the American Statistical Association , 88 , 486-494 (1993), mais d'autres articles peuvent être trouvés dans cette veine.

En général, des articles statistiques respectables spécifient le protocole de validation croisée, précisément parce que les résultats ne sont pas invariants. Dans le cas où ils choisissent un grand nombre de plis pour de grands ensembles de données, ils remarquent et tentent de corriger les biais dans la sélection du modèle.

gappy
la source
Non, non, non, il s'agit d'apprentissage automatique et non de sélection de modèle.
1
Distinction intéressante. Je pensais que la sélection des modèles était au cœur de l'apprentissage automatique, dans presque tous les sens du terme.
gappy
Toutes ces choses fonctionnent pour les modèles triviaux (principalement linéaires) lorsque vous avez peu de paramètres et que vous souhaitez simplement les ajuster aux données pour en dire quelque chose, comme si vous aviez y et x et que vous vouliez vérifier si y = x ^ 2 ou y = x. Ici, je parle d'estimation d'erreur de modèles comme les SVM ou les RF qui peuvent avoir des milliers de paramètres et ne sont toujours pas surajustés en raison d'heuristiques complexes.
Ces résultats sont valables pour la régression de modèles linéaires généraux avec un nombre arbitraire de variables indépendantes. Les variables peuvent être des apprenants arbitraires. L'hypothèse cruciale est que lorsque le nombre d'observations va à l'infini, le nombre d'apprenants décrivant le vrai modèle reste fini. Tout cela fonctionne pour la régression, donc pour une tâche de classification comme la vôtre, je ne suis pas sûr que cela aide.
gappy
Ce ne est pas; GLM n'est pas un apprentissage automatique. Les véritables méthodes d'apprentissage automatique sont suffisamment sages pour maintenir leur niveau de complexité indépendant du nombre croissant d'objets (si cela est bien sûr suffisant); même pour les modèles linéaires, toute cette théorie fonctionne assez mal car la convergence est mauvaise.