Définition de la complexité d'un arbre dans xgboost

9

En faisant des recherches sur l'algorithme xgboost, j'ai parcouru la documentation .

Dans cette approche, les arbres sont régularisés en utilisant la définition de la complexité

Ω(f)=γT+12λj=1Twj2
γ et λ sont des paramètres, T est le nombre de feuilles terminales et wj est le score de chaque feuille.

Je me demande: comment cela définit-il la complexité? T, le nombre de nœuds terminaux, me semble naturel. Mais la somme des scores finaux au carré?

Peut-être que le sur-ajustement est signifié. Cela signifie que des scores très élevés donnent trop de confiance? Est-il choisi pour obtenir un apprenant faible? Quelle est l'explication naturelle de ce choix de la fonction de complexité?

Ric
la source

Réponses:

7

Cela me semble logique.

Je vais me concentrer sur le cas gaussien. Ici chaque arbreTiest ajusté sur les résidus du modèle actuel, et la mise à jour du modèle estMi+1=Mi+αTi. L'idée d'un amplificateur de gradient est de réduire lentement et soigneusement le biais du modèle en ajoutant ces arbres un par un.

Dans ce cas, une grande valeur de wicorrespondrait à un nœud terminal (feuille) donnant une mise à jour très importante et significative du modèle précédent. L'idée du terme de régularisation est de minimiser ces incidents de grandes mises à jour de l'arborescence unique (ne les autorisant que si la diminution de la fonction de perte de modèle est suffisamment importante pour compenser la pénalité de régularisation). Si une telle mise à jour est régularisée pour un seul arbre, mais s'avère justifiée, elle sera intégrée dans plusieurs mises à jour de modèles, conformément à la philosophie du boosting.

Il s'agit d'une analogie très étroite avec la régression des crêtes.

Matthew Drury
la source
Merci, donc vous y pensez de la même manière que lorsque je parle d'un apprenant faible ... Faible dans le sens si vous ne faites pas des pas trop grands.
Ric
Pourriez-vous être plus précis sur ce qu'est le «cas gaussien»? s'adapter à un mélange de gaussiens?
Haitao Du
@ hxd1011 Je veux juste dire que nous utilisons la somme des pertes d'erreurs au carré, alias la log-vraisemblance de la distribution gaussienne. Le point principal est qu'ici, vous pouvez supposer que vous êtes juste ajusté aux résidus.
Matthew Drury
@MatthewDrury pourriez-vous jeter un oeil à cette question connexe? Merci!! stats.stackexchange.com/questions/229599/…
Haitao Du