J'aimerais connaître votre avis sur les différences entre la validation croisée et l’amorçage pour estimer l’erreur de prédiction.
Est-ce qu'on travaille mieux pour de petites tailles de données ou de grands ensembles de données?
la source
J'aimerais connaître votre avis sur les différences entre la validation croisée et l’amorçage pour estimer l’erreur de prédiction.
Est-ce qu'on travaille mieux pour de petites tailles de données ou de grands ensembles de données?
Cela revient à la variance et au biais (comme d'habitude). Le CV tend à être moins biaisé, mais le CV au pli K a une variance assez grande. Par ailleurs, l’amorçage a tendance à réduire considérablement la variance mais donne des résultats plus biaisés (ils ont tendance à être pessimistes). D'autres méthodes d'amorçage ont été adaptées pour traiter le biais d'amorçage (telles que les règles 632 et 632+).
Deux autres approches sont "CV Monte Carlo" ou "CV départ groupe" qui effectue de nombreuses fractionnements aléatoires des données (un peu comme des fractionnements de mini-formation et de test). La variance est très faible pour cette méthode et le biais n'est pas trop grave si le pourcentage de données dans la conservation est faible. En outre, le CV répété fait plusieurs fois le pli K et donne une moyenne des résultats similaire à celle du pli K normal. Je suis très partisan de cela, car cela maintient le faible biais et réduit la variance.
Pour les grands échantillons, les problèmes de variance deviennent moins importants et la partie informatique est davantage un problème. Je voudrais encore coller par CV répété pour les échantillons de petite et grande taille.
Quelques recherches pertinentes sont ci-dessous (en particulier Kim et Molinaro).
Bengio, Y. et Grandvalet, Y. (2005). Biais dans l'estimation de la variance de la validation croisée par k-fold. Modélisation et analyse statistiques de problèmes de données complexes, 75–95.
Braga-Neto, UM (2004). La validation croisée est-elle valable pour la classification par micropuce de petits échantillons Bioinformatics, 20 (3), 374–380. doi: 10.1093 / bioinformatique / btg419
Efron, B. (1983). Estimation du taux d'erreur d'une règle de prédiction: amélioration de la validation croisée. Journal de l'American Statistical Association, 316–331.
Efron, B. et Tibshirani, R. (1997). Améliorations sur la validation croisée: Le. Méthode 632+ bootstrap. Journal de l'American Statistical Association, 548–560.
Furlanello, C., Merler, S., Chemini, C. et Rizzoli, A. (1997). Application de la règle bootstrap 632+ aux données écologiques. WIRN 97.
Jiang, W. et Simon, R. (2007). Une comparaison des méthodes bootstrap et une approche bootstrap ajustée pour estimer l'erreur de prédiction dans la classification des puces. Statistics in Medicine, 26 (29), 5320-5334.
Jonathan, P., Krzanowski, W. et McCarthy, W. (2000). Utilisation de la validation croisée pour évaluer les performances en prévision multivariée. Statistics and Computing, 10 (3), 209-222.
Kim, J.-H. (2009). Estimation du taux d'erreur de classification: validation croisée répétée, rétention et amorçage répétés. Statistiques de calcul et d'analyse de données, 53 (11), 3735–3745. doi: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995). Une étude de la validation croisée et du bootstrap pour l'estimation de la précision et la sélection du modèle. Conférence commune internationale sur l'intelligence artificielle, 14, 1137-1145.
Martin, J. et Hirschberg, D. (1996). Petits échantillons de statistiques pour les taux d'erreur de classification I: Mesures du taux d'erreur.
Molinaro, AM (2005). Estimation d'erreur de prévision: comparaison de méthodes de rééchantillonnage. Bioinformatics, 21 (15), 3301-3307. doi: 10.1093 / bioinformatique / bti499
Sauerbrei, W., & Schumacher1, M. (2000). Bootstrap et validation croisée pour évaluer la complexité des modèles de régression pilotée par les données. Analyse des données médicales, 26–28.
Tibshirani, RJ, et Tibshirani, R. (2009). Une correction de biais pour le taux d'erreur minimum dans la validation croisée. Pré-impression Arxiv arXiv: 0908.2904.
@ Frank Harrell a beaucoup travaillé sur cette question. Je ne connais pas de références spécifiques.
Mais je considère plutôt que les deux techniques ont des finalités différentes. La validation croisée est un bon outil pour choisir un modèle. Elle vous permet d’éviter de vous tromper en vous faisant croire que vous avez un bon modèle alors que vous surappliquez trop.
Lorsque votre modèle est corrigé, l'utilisation du bootstrap est plus logique (du moins pour moi).
Il existe une introduction à ces concepts (plus les tests de permutation) utilisant R à l' adresse http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html
la source
Je crois comprendre que l’amorçage est un moyen de quantifier l’incertitude de votre modèle, tandis que la validation croisée est utilisée pour la sélection du modèle et la mesure de la précision prédictive.
la source
Une différence est que la validation croisée, comme jackknife, utilise l’ensemble de vos points de données, alors que l’amorçage, qui ré-échantillonne vos données de manière aléatoire, peut ne pas atteindre tous les points.
Vous pouvez démarrer aussi longtemps que vous le souhaitez, ce qui signifie un rééchantillonnage plus important, ce qui devrait vous aider avec des échantillons plus petits.
La moyenne de validation croisée ou jackknife sera la même que la moyenne de l'échantillon, alors qu'il est très peu probable que la moyenne de bootstrap soit identique à la moyenne de l'échantillon.
Étant donné que la validation croisée et le poids du jackknife sont identiques, ils doivent avoir un intervalle de confiance plus petit (bien que éventuellement incorrect) par rapport au bootstrap.
la source
Ce sont deux techniques de ré-échantillonnage:
Dans la validation croisée, nous divisons les données de manière aléatoire en kfold et cela aide à sur-adapter, mais cette approche a son inconvénient. Comme il utilise des échantillons aléatoires, certains échantillons produisent une erreur majeure. Afin de minimiser le CV, il existe des techniques, mais il n’est pas aussi puissant avec des problèmes de classification. Bootstrap aide en cela, il améliore l'erreur de sa propre vérification d'échantillon .. pour plus de détails s'il vous plaît se référer ..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf
la source