Apprentissage en ensemble: Pourquoi l'empilement de modèles est-il efficace?

Récemment, je me suis intéressé à l'empilement de modèles en tant que forme d'apprentissage d'ensemble. En particulier, j'ai expérimenté un peu avec certains jeux de données de jouets pour les problèmes de régression. J'ai essentiellement implémenté des régresseurs individuels de "niveau 0", stocké les prédictions de sortie de chaque régresseur comme une nouvelle fonctionnalité pour un "méta-régresseur" à prendre comme entrée, et ajusté ce méta-régresseur sur ces nouvelles fonctionnalités (les prédictions du niveau 0 régresseurs). J'ai été extrêmement surpris de voir des améliorations même modestes par rapport aux régresseurs individuels lors du test du méta-régresseur par rapport à un ensemble de validation.

Alors, voici ma question: pourquoi l'empilement de modèles est-il efficace? Intuitivement, je m'attendrais à ce que le modèle faisant l'empilement fonctionne mal car il semble avoir une représentation des caractéristiques appauvrie par rapport à chacun des modèles de niveau 0. C'est-à-dire que si j'entraîne 3 régresseurs de niveau 0 sur un ensemble de données avec 20 entités et que j'utilise les prédictions de ces régresseurs de niveau 0 comme entrée dans mon méta-régresseur, cela signifie que mon méta-régresseur n'a que 3 fonctionnalités pour apprendre. Il semble juste qu'il y ait plus d'informations encodées dans les 20 fonctionnalités originales que les régresseurs de niveau 0 ont pour la formation que les 3 fonctionnalités de sortie que le méta-régresseur utilise pour la formation.

machine-learning ensemble stacking kylerthecreator
la source

Réponses:

Considérez l'assemblage comme une exploitation fondamentale du théorème de la limite centrale.

Le théorème de la limite centrale dit vaguement que, à mesure que la taille de l'échantillon augmente, la moyenne de l'échantillon deviendra une estimation de plus en plus précise de l'emplacement réel de la moyenne de la population (en supposant que ce soit la statistique que vous regardez), et la variance se resserrera .

Si vous avez un modèle et qu'il produit une prédiction pour votre variable dépendante, cette prédiction sera probablement élevée ou faible dans une certaine mesure. Mais si vous avez 3, 5 ou 10 modèles différents qui produisent des prédictions différentes, pour une observation donnée, les prédictions élevées de certains modèles auront tendance à compenser les faibles erreurs de certains autres modèles, et l'effet net sera une convergence de la moyenne (ou une autre combinaison) des prédictions vers "la vérité". Pas à chaque observation, mais en général, c'est la tendance. Et donc, généralement, un ensemble surclassera le meilleur modèle unique.

Doug Dame
la source