Ne confondez pas la gestion des prédicteurs (via les apprenants de base, par exemple les souches) et la gestion de la fonction de perte dans le boosting. Bien qu'AdaBoost puisse être considéré comme la recherche de combinaisons d'apprenants de base pour minimiser l'erreur de classification erronée, le document "Régression logistique additive" que vous citez montre qu'il peut également être formulé pour minimiser une fonction de perte exponentielle. Ces informations ont ouvert l'approche de renforcement à une large classe de problèmes d'apprentissage automatique qui minimisent les fonctions de perte différenciables, via le renforcement de gradient . Les résidus qui sont ajustés à chaque étape sont des pseudo-résidus calculés à partir du gradient de la fonction de perte. Même si les prédicteurs sont modélisés comme des souches binaires, la sortie du modèle n'a donc pas besoin d'être un choix binaire.
Comme une autre réponse l'indique, les apprenants de base linéaire peuvent ne pas fonctionner pour le renforcement, mais les apprenants de base linéaire ne sont pas requis pour une "régression renforcée" au sens standard ou logistique. Décidément, les souches non linéaires peuvent être combinées en tant qu'apprenants à base lente pour minimiser les fonctions de perte appropriées. On l'appelle encore "régression boostée" même si elle est loin d'un modèle de régression standard linéaire dans les coefficients des prédicteurs. La fonction de perte peut être fonctionnellement la même pour les modèles linéaires et les modèles de "régression boostée" avec des souches ou des arbres comme prédicteurs. Le chapitre 8 de l' ISLR le montre assez clairement.
Donc, si vous voulez une régression logistique équivalente à une régression boostée, concentrez-vous sur la fonction de perte plutôt que sur les apprenants de base. C'est ce que fait l'approche LogitBoost dans l'article que vous citez: minimiser une perte de journal plutôt que la perte exponentielle implicite dans adaboost. La page Wikipedia AdaBoost décrit cette différence.
De nombreux participants sur ce site soutiennent qu'une prédiction basée sur les cotes / probabilités logarithmiques est hautement préférable à une prédiction de classification stricte oui / non, car la première permet plus généralement de faire des compromis entre les coûts supplémentaires des prédictions faussement positives et fausses négatives. . Comme l'indique la réponse à votre question connexe , il est possible d'obtenir des probabilités estimées à partir du classificateur fort dérivé d'AdaBoost, mais LogitBoost pourrait bien donner de meilleures performances.
Les implémentations du renforcement de gradient pour la classification peuvent fournir des informations sur les probabilités sous-jacentes. Par exemple, cette page sur le renforcement du gradient montre comment le sklearn
code permet de choisir entre la perte de déviance pour la régression logistique et la perte exponentielle pour AdaBoost, et documente les fonctions pour prédire les probabilités du modèle boosté par le gradient.
En fait, nous avons une question très similaire ici sur le cas de régression. Et nous avons eu une très bonne réponse de @Matthew Drury
Augmentation du gradient pour la régression linéaire - pourquoi cela ne fonctionne-t-il pas?
Le modèle linéaire (comme la régression logistique) n'est pas bon pour augmenter. La raison est que si vous ajoutez deux modèles linéaires ensemble, le résultat est un autre modèle linéaire. En revanche, l'ajout de deux souches de décision ou arbres, aura un modèle plus compliqué et intéressant (plus un arbre).
Les détails peuvent être trouvés dans cet article. Dans ce lien, j'ai déduit pourquoi l'ajout de deux modèles linéaires n'est pas intéressant. Et je montre l'effet du boosting sur la décision itération du moignon par itération.
Comment fonctionne l'apprenant de base linéaire pour stimuler? Et comment ça marche dans la bibliothèque xgboost?
Notez que l'arbre de décision / moignon n'est pas un «modèle linéaire» semblable à la régression logistique.
Voir cet article pour plus de détails
Un moignon de décision est-il un modèle linéaire?
la source