Classificateurs de base pour augmenter

8

Les algorithmes de stimulation, tels que AdaBoost , combinent plusieurs classificateurs «faibles» pour former un seul classificateur plus fort. Bien qu'en théorie, le renforcement devrait être possible avec n'importe quel classificateur de base, en pratique, il semble que les classificateurs basés sur des arbres soient les plus courants.

Pourquoi est-ce? Quelles propriétés des classificateurs d'arbre les rendent les mieux adaptés à cette tâche? Existe-t-il d'autres classificateurs de base qui bénéficient également beaucoup du boost? Je pose la question en tenant compte des problèmes de classification, mais je serais également intéressé par les réponses concernant les applications de régression.

Martin O'Leary
la source

Réponses:

10

Je suis presque sûr que vous avez raison et qu'il n'y a aucune raison qui nécessite nécessairement l'utilisation d'arbres de décision au lieu d'autres classificateurs. Cela dit, je pense qu'il y a plusieurs raisons pour lesquelles ils sont souvent utilisés. La vitesse est un facteur: le boost peut nécessiter la formation de nombreux classificateurs. Si chacun est un réseau neuronal géant multicouche, toute la procédure sera très lente.

Plus important encore, je pense que les arbres de décision sont «assez bons». Étant donné que l'idée derrière le boosting est de regrouper les classificateurs faibles , il n'y a pas d'incitation énorme à abandonner des solutions lourdes qui pourraient nécessiter plus de réglages (par exemple, jouer avec les hyperparamètres et le noyau pour les SVM).

Enfin, les arbres de stimulation et de décision sont, du moins dans ma tête, quelque peu similaires sur le plan conceptuel (par exemple, ajouter un nœud / construire un nouveau classificateur). Beaucoup de choses d'apprentissage d'ensemble semblent utiliser des arbres. Je pense que vous pourriez avoir une "forêt aléatoire" d'apprenants Naive Bayes si vous le vouliez vraiment.

Matt Krause
la source
1
Je n'étais pas totalement sûr de cela, mais ce fil arrive à des conclusions similaires: stats.stackexchange.com/questions/13597/…
Matt Krause
Je pense que la vitesse peut être quelque chose d'un hareng rouge ici - la plupart du temps, je préfère avoir un classificateur plus précis que quelque chose qui est légèrement plus rapide à entraîner. Après tout, le temps CPU est assez bon marché de nos jours.
Martin O'Leary
C'est vrai, bien que l'attrait du boosting soit que vous pouvez obtenir des prédictions rapides et précises à partir de méthodes qui ne peuvent généralement vous donner que des prédictions rapides. Cela dit, j'aurais dû les souligner dans cet ordre: assez bon> vitesse> tout ce qui se passe dans ma tête :-)
Matt Krause
Je vois ce que vous dites, mais je pense toujours que «assez bien» est un peu une réponse insatisfaisante. Je prends votre point de vue sur le manque de tripoter les hyper paramètres.
Martin O'Leary
9

Certaines caractéristiques peuvent éclairer la compréhension des méthodes d'ensemble.

Ensachage

Probablement la méthode d'ensemble la plus simple, l'ensachage, qui n'est rien de plus qu'une collection de classificateurs homogènes similaires construits sur des données de formation rééchantillonnées et maintenues ensemble par une méthode combinée, améliore la variance causée par l'instabilité des classificateurs de base en faisant la moyenne de leurs résultats. L'ensemble exploite cette instabilité pour traiter la composante de variance de l'erreur du classificateur de base et, dans une moindre mesure, leur biais.

Vous pouvez penser que l'ensachage fournit un degré important de lissage à ce qui serait autrement un classificateur de base "faible" très instable. Une raison, en dehors de leur tendance vers l'efficacité de calcul, pourquoi les classificateurs faibles sont choisis est qu'ils présentent une diversité plus élevée, ce qui est une caractéristique bénéfique pour les ensembles.

Si vous visualisez un ensemble ensaché plein de classificateurs stables très solides, ils auront un très haut degré d'accord sur leurs classifications d'exemples présentés à l'ensemble. En fait, ils votent tous de la même manière. Un comité dans lequel tous les membres votent de la même manière n'a que peu d'utilité sur un seul membre du comité.

Donc, pour fonctionner efficacement, un ensemble doit embrasser une certaine diversité parmi ses membres. De toute évidence, un comité de membres qui émettent des opinions presque aléatoires n'est pas non plus d'une grande utilité. Une position intermédiaire entre ces extrêmes est donc recherchée.

Dans la pratique, comme il n'existe pas de théorie complète sur le sujet, ce compromis est trouvé à l'aide de méthodes empiriques telles que la validation croisée ou les essais de résistance. Ils sont utilisés pour évaluer une résistance appropriée pour le classificateur de base.

Du fait que cette recherche d'un ensemble optimal impliquera normalement l'ajustement des paramètres des classificateurs de base et de l'ensemble lui-même, il est souhaitable que le nombre de ces paramètres soit maintenu aussi petit que possible. Sinon, la dimensionnalité de l'espace de recherche de paramètres signifie rapidement que la recherche du minimum global est intraitable sur le plan des calculs. Les arbres de décision sont un choix populaire car, comme cela a été mentionné, ils peuvent être utilisés efficacement sans nécessairement ajuster aucun de leurs paramètres.

Forêts aléatoires

Les forêts aléatoires, qui sont principalement des arbres de décision ensachés, tirent parti de l'instabilité importante des arbres en injectant une forte composante stochastique [les permutations d'un petit nombre de caractéristiques / facteurs à chaque nœud de décision dans un arbre] pour créer la diversité au sein de l'ensemble. Parce que chaque nœud d'un arbre est présenté avec une nouvelle sélection aléatoire de caractéristiques, les arbres sont très divers. L'ensemble a alors pour effet de faire la moyenne de la variance et du biais de la collection diversifiée d'arbres.

Pour être efficace, une "forêt aléatoire" de classificateurs Bayes naïfs, ou tout autre classificateur de base stable comme les SVM, a besoin de l'ajout d'un élément stochastique. Pour les classificateurs stables, des variations relativement faibles des données de formation, telles que celles résultant de l'ensachage, conduisent à des classificateurs très similaires.

Pour accroître la diversité, d'autres approches pourraient être appliquées. Par exemple, permutation des fonctionnalités affichées pour chaque classificateur de base. Cela a une restriction que la diversité disponible significative est limitée au nombre de combinaisons de l'ensemble de fonctionnalités. Une fois les combinaisons épuisées, aucun nouveau classificateur n'est disponible pour l'ensemble qui voterait différemment des membres existants.

Pour les problèmes avec relativement peu de fonctionnalités, cela limite considérablement le pool disponible de classificateurs. Il serait possible d'injecter d'autres sources de hasard, par exemple en sous-échantillonnant de manière agressive les données d'entraînement. La preuve semble être que, dans le cas général, une telle approche est inférieure au mélange particulier de biais et de diversité qu'offre une forêt aléatoire.

Il est possible d'utiliser avec succès d'autres classificateurs de base instables, tels que les perceptrons multicouches (réseaux de neurones) qui ont peu de nœuds et des quantités limitées de formation ou des approches de remplissage d'espace basées sur des points, par exemple la discrimination stochastique, pour injecter de la diversité dans les méthodes d'ensembles. Certes, dans le cas des MLP, un degré de réglage des paramètres est essentiel.

Booster

Boosting adopte une approche de construction de l'ensemble différente du modèle d'agglomération simple adopté par Bagging. Je suppose que conceptuellement, si vous pensez que l'ensachage est un modèle d'ensemble plat, le renforcement construit un classificateur en couches.

Chaque cycle de boosting choisit un nouveau classificateur parmi un ensemble de classificateurs potentiels construits à partir de données d'entraînement pondérées ou rééchantillonnées, en fonction des erreurs de classification du cycle précédent. Le nouveau classificateur est sélectionné de manière à minimiser l'erreur d'ensemble totale.

Cela contraste fortement avec le manque de critères de sélection qui résistent à la construction aléatoire d'un ensemble forestier. Chaque nouveau classificateur de base est spécifiquement nécessaire pour se concentrer sur les points faibles de l'ensemble existant, avec pour résultat que le renforcement agressif réduit les erreurs d'entraînement.

Aux premiers stades de la construction d'ensemble, le renforcement a peu de classificateurs faibles et chacun se concentre sur différentes zones de l'espace de formation, ce qui a principalement pour effet de réduire les biais. À mesure que la taille de l'ensemble augmente, les possibilités de réduction du biais diminuent et l'erreur due à la variance est améliorée.

L'avantage de l'instabilité dans le classificateur de base pour le renforcement est que, à mesure que l'ensemble se développe, le nombre d'exemples mal classés restants diminue. Un degré de diversité plus élevé est nécessaire pour générer un classificateur qui adopte une vue utilement différente des échantillons restants que ses prédécesseurs.

La puissance de cette approche peut être vue par le fait que des résultats acceptables peuvent être obtenus avec seulement des souches de décision, bien que les MLP se soient révélés très efficaces en général.

En raison de cette concentration constante sur les exemples mal classés, la faiblesse du boosting est qu'il peut être sensible au bruit, dans une certaine mesure, logitboost tente de remédier à cet échec.

Pas de repas gratuit

Il convient de rappeler qu'il n'existe pas de grande théorie unifiée de l'apprentissage automatique et que les résultats d'un classificateur particulier dépendent fortement du type de données avec lesquelles il est utilisé. Donc, a priori, il n'y a aucune raison solide et rapide d'affirmer qu'un type de classificateur est supérieur à un autre, autre que le consensus dérivé de l'expérimentation précédente avec des données similaires et l'utilité générale montrée par un algorithme dans une variété d'ensembles de données. Pour obtenir une bonne solution, vous voudrez peut-être expérimenter une poignée d'approches populaires.

image_doctor
la source
+1 pour avoir mentionné la NFL, mais je dirais que la NFL est la `` grande théorie unifiée '' de l'apprentissage automatique, ou aussi proche d'une chose que nous sommes susceptibles de voir ...
John Doucette