Les techniques de stimulation utilisent-elles le vote comme toute autre méthode d'ensemble?

8

Peut-on généraliser toutes les méthodes d'ensemble en utilisant le vote? Les méthodes de stimulation utilisent-elles également le vote pour amener les apprenants faibles dans le modèle final?

Ma compréhension de la technique:

  • Boosting: ajoute continuellement un apprenant faible pour booster les points de données qui n'ont pas été correctement classés.
  • Technique d'ensemble: Utilise plusieurs apprenants pour obtenir une meilleure prédiction que d'un seul. Ceci est expliqué dans wikipedia.
pritywiz
la source

Réponses:

7

Le boosting peut généralement être compris comme un vote (pondéré)

Dans le cas du boosting, un de ses inventeurs donne une réponse affirmative dans cette introduction à AdaBoost (c'est moi qui souligne):

L' hypothèse finale ou combinée H calcule le signe d'une combinaison pondérée d'hypothèses faibles

F(x)=t=1Tαtht(x)
Cela revient à dire que Hest calculé comme un vote majoritaire pondéré des hypothèses faibles ht où chacun se voit attribuer un poids αt. (Dans ce chapitre, nous utilisons les termes «hypothèse» et «classificateur» de manière interchangeable.)

Alors oui, le modèle final renvoyé est un vote pondéré de tous les apprenants faibles formés à cette itération. De même, vous trouverez cet extrait sur Wikipédia sur le renforcement en général:

Bien que le boosting ne soit pas contraint algorithmiquement, la plupart des algorithmes de boosting consistent à apprendre de manière itérative des classificateurs faibles par rapport à une distribution et à les ajouter à un classificateur fort final. Lorsqu'ils sont ajoutés, ils sont généralement pondérés d'une manière qui est généralement liée à la précision des apprenants faibles.

Notez également la mention que les algorithmes de boosting d'origine utilisaient une "majorité". La notion de vote est assez solidement ancrée dans la stimulation: son principe directeur est d'améliorer un ensemble à chaque itération en ajoutant un nouvel électeur, puis en décidant du poids à donner à chaque vote.

Cette même intuition porte par exemple sur le boost de gradient : à chaque itérationm nous trouvons un nouvel apprenant hm adapté aux pseudo-résidus, puis optimiser γm pour décider du poids à donner hm"vote".

L'extension à toutes les méthodes d'ensemble s'exécute en contre-exemples

Dans l'état actuel des choses, certains trouveraient que même la notion de pondération étire la métaphore du vote. Lorsque vous envisagez d'étendre cette intuition à toutes les méthodes d' apprentissage d'ensemble , tenez compte de cet extrait:

Les ensembles combinent plusieurs hypothèses pour former une (espérons-le) meilleure hypothèse. Le terme ensemble est généralement réservé aux méthodes qui génèrent plusieurs hypothèses en utilisant le même apprenant de base.

Et celui-ci sur l'exemple de méthode d'ensemble d' empilement :

L'empilement (parfois appelé généralisation empilée) implique la formation d'un algorithme d'apprentissage pour combiner les prédictions de plusieurs autres algorithmes d'apprentissage. Tout d'abord, tous les autres algorithmes sont entraînés en utilisant les données disponibles, puis un algorithme combineur est formé pour faire une prédiction finale en utilisant toutes les prédictions des autres algorithmes comme entrées supplémentaires. Si un algorithme de combinateur arbitraire est utilisé, l'empilement peut théoriquement représenter n'importe laquelle des techniques d'ensemble décrites dans cet article, bien qu'en pratique, un modèle de régression logistique à une seule couche soit souvent utilisé comme combinateur.

Si vous définissez des méthodes d'ensemble pour inclure des méthodes d'empilement avec un combinateur arbitraire, vous pouvez construire des méthodes qui, à mon avis, étendent la notion de vote au-delà de sa limite. Il est difficile de voir comment une collection d'apprenants faibles combinée via un arbre de décision ou un réseau de neurones peut être considérée comme un «vote». (Laissant de côté la question également difficile de savoir quand cette méthode pourrait se révéler pratiquement utile.)

Certaines introductions décrivent les ensembles et le vote comme synonymes; Je ne connais pas assez la littérature récente sur ces méthodes pour dire comment ces termes sont généralement appliqués récemment, mais j'espère que cette réponse donne une idée de l'étendue de la notion de vote.

Sean Easter
la source
Veuillez expliquer comment le vote se fait dans la machine de renforcement de gradient. Un apprenant faible est ajouté à chaque itération, alors où vote ici. Peut-on généraliser le vote à utiliser dans tous les boosters mais aussi dans toutes les techniques d'ensemble?
pritywiz
1
À la première question, si vous suivez la description de l'augmentation du gradient ici sous "Algorithme", vous trouverez l'apprenant final décrit comme un objectif pondéré des apprenants faibles. En substance, la métaphore du vote est la suivante: à chaque itération, vous ajoutez un nouvel électeur concentré sur les pseudo-résidus, puis optimisezγmde décider du poids à accorder à ce nouveau vote.
Sean Easter
1
Pour le second, je ne crois pas que la métaphore du vote emporte l'eau pour toutes les méthodes d'ensemble. Si vous lisez à propos de l'empilement comme décrit dans les exemples courants ici , vous constaterez qu'un algorithme de combinateur arbitraire peut être utilisé, traitant les prédictions d'autres apprenants comme entrées. Il est difficile de voir comment on pourrait considérer, par exemple, un arbre de décision comme un mécanisme de vote parmi les apprenants. Est-ce que c'est utile?
Sean Easter
4

Le boosting est différent de l'ensachage (vote). Je ne vois pas de moyen d'interpréter le boosting comme un "vote" (voir ma modification pour plus de détails).

  • Le vote (en particulier le vote majoritaire) signifie généralement une décision combinée de classificateurs de semaine «séparés / moins corrélés».

  • En renforçant, nous construisons un classificateur sur un autre. Ce ne sont donc pas des "pairs séparés" mais l'un est "moins faible qu'un autre".

Ma réponse donne ici un boosting décomposé par itérations.

Comment fonctionne le leaner de base linéaire dans le boosting? Et comment cela fonctionne dans la bibliothèque xgboost?

L'exemple tente d'approximer une fonction quadratique en augmentant le moignon de décision.

  • Les deux premières parcelles sont la vérité du terrain et le modèle de renforcement après de nombreuses itérations. Ce sont des parcelles de contour. Les axes X et Y sont deux caractéristiques et la valeur de la fonction est représentée par la couleur.

entrez la description de l'image ici

  • Ensuite, je montre les 4 premières itérations. Vous pouvez voir que nous ne faisons pas la moyenne / vote de 4 modèles, mais améliorons le modèle au cours de chaque itération.

entrez la description de l'image ici


Après avoir vu une autre réponse, je pense que la réponse à cette question dépend de la façon dont nous définissons le «vote». Considérons-nous la somme pondérée comme un vote? Si oui, je pense que nous pouvons encore dire que le renforcement peut être généralisé par le vote.

Haitao Du
la source
Je comprends que le boosting est correctement expliqué par vous, alors que dans Adaboost, nous pouvons dire qu'un vote majoritaire pondéré de tous les classificateurs faibles est le classificateur final, mais ce n'est pas la même chose dans le cas du GBM. Donc, nous ne pouvons pas généraliser le vote à utiliser dans toutes les techniques d'ensemble, n'est-ce pas? Je suis perplexe .. et précisément ma confusion ..
pritywiz
1
@pritywiz Je pense qu'une autre réponse est également juste. Le mot "vote" n'est pas tout à fait clair. La forme finale de GBM est toujours additive avec différents poids. Considérons-nous la somme pondérée = voter?
Haitao Du