Quelle est la façon la plus simple de comprendre le boosting?
Pourquoi ne stimule-t-il pas les classificateurs très faibles "à l'infini" (la perfection)?
la source
Quelle est la façon la plus simple de comprendre le boosting?
Pourquoi ne stimule-t-il pas les classificateurs très faibles "à l'infini" (la perfection)?
En clair: si votre classificateur classe mal certaines données, entraînez-en une autre copie principalement sur cette partie mal classée en espérant qu'il découvrira quelque chose de subtil. Et puis, comme d'habitude, répétez. Sur le chemin, il y a des schémas de vote qui permettent de combiner de manière sensible toutes les prédictions de ces classificateurs.
Parce que parfois c'est impossible (le bruit ne fait que masquer certaines informations, ou il n'est même pas présent dans les données); d'autre part, trop de boost peut conduire à un sur-ajustement.
L'amplification utilise le rétrécissement via le paramètre de taux d'apprentissage, qui, couplé à une validation croisée k , à des prédictions «hors sac» (OOB) ou à un ensemble de test indépendant, détermine le nombre d'arbres à conserver dans l'ensemble.
Nous voulons un modèle qui apprend lentement, d'où un compromis en termes de complexité de chaque modèle individuel et de nombre de modèles à inclure. Les conseils que j'ai vus suggèrent que vous devez définir le taux d'apprentissage aussi bas que possible (compte tenu du temps de calcul et des besoins en espace de stockage), tandis que la complexité de chaque arbre doit être sélectionnée en fonction de l'autorisation des interactions et dans quelle mesure, plus l'arbre est complexe, plus les interactions qui peuvent être représentées sont complexes.
k -fold CV (ou prédictions OOB ou ensemble de test indépendant) est utilisé pour décider quand le modèle boosté a commencé à s'adapter. C'est essentiellement cela qui nous empêche de passer au modèle parfait, mais il vaut mieux apprendre lentement, nous avons donc un grand ensemble de modèles contribuant au modèle ajusté.