J'ai lu diverses déclarations (apparemment) contradictoires, que AdaBoost (ou d'autres techniques de boosting) soient ou non sujettes à un sur-ajustement par rapport à d'autres méthodes d'apprentissage.
Y a-t-il de bonnes raisons de croire l'un ou l'autre? Si cela dépend, de quoi dépend-il? Quelles sont les raisons pour lesquelles AdaBoost est moins / plus enclin à sur-équiper?
caret
package pour effectuer une validation croisée adaboost, et j'ai trouvé qu'il se généralise généralement bien.Réponses:
Comme vous le dites, beaucoup de choses ont été discutées à ce sujet, et il y a une théorie assez lourde qui va avec et que je dois admettre que je n'ai jamais complètement comprise. Dans mon expérience pratique, AdaBoost est assez robuste au sur-ajustement, et LPBoost (Linear Programming Boosting) encore plus (car la fonction objectif nécessite une combinaison clairsemée d'apprenants faibles, qui est une forme de contrôle de la capacité). Les principaux facteurs qui l'influencent sont:
La «force» des apprenants «faibles»: si vous utilisez des apprenants faibles très simples, comme les souches de décision (arbres de décision à 1 niveau), les algorithmes sont beaucoup moins sujets au surapprentissage. Chaque fois que j'ai essayé d'utiliser des apprenants faibles plus compliqués (tels que des arbres de décision ou même des hyperplans), j'ai constaté que le surapprentissage se produit beaucoup plus rapidement
Le niveau de bruit dans les données: AdaBoost est particulièrement enclin à sur-ajuster les jeux de données bruyants. Dans ce cadre, les formulaires régularisés (RegBoost, AdaBoostReg, LPBoost, QPBoost) sont préférables
La dimensionnalité des données: Nous savons qu'en général, nous avons davantage de surapprentissage dans les espaces de grande dimension ("la malédiction de la dimensionnalité"), et AdaBoost peut également souffrir à cet égard, car il s'agit simplement d'une combinaison linéaire de classificateurs qui eux-mêmes souffrent du problème. Il est difficile de déterminer s'il est aussi sujet que d'autres classificateurs.
la source
Je suis d'accord avec la plupart des points mentionnés dans les commentaires de tdc. cependant, je dois ajouter et corriger peu de choses.
la source