Il semble être devenu axiomatique qu'un ensemble d'apprenants aboutisse aux meilleurs résultats de modèles possibles - et il devient de plus en plus rare, par exemple, que des modèles uniques gagnent des compétitions telles que Kaggle. Y a-t-il une explication théorique pour expliquer pourquoi les ensembles sont si efficaces?
machine-learning
data-mining
predictive-modeling
Robert de Graaf
la source
la source
Réponses:
Pour un modèle spécifique, vous lui fournissez des données, choisissez les fonctionnalités, choisissez les hyperparamètres, etc. Comparé à la réalité il fait trois types d'erreurs:
Les ensembles font la moyenne d'un certain nombre de ces modèles. Le biais dû au biais d'échantillonnage ne sera pas corrigé pour des raisons évidentes, il peut corriger une partie du biais de complexité du modèle, mais les erreurs de variance qui sont commises sont très différentes sur vos différents modèles. Les modèles à corrélation particulièrement faible font des erreurs très différentes dans ce domaine, certains modèles fonctionnent bien dans certaines parties de votre espace de fonctionnalités. En faisant la moyenne de ces modèles, vous réduisez un peu cette variance. C'est pourquoi les ensembles brillent.
la source
La réponse choisie est fantastique, mais je voudrais ajouter deux choses:
la source
Les ensembles gagnent à la prévision pour des raisons théoriques et pratiques.
Il existe une théorie fondamentale de la prévision optimale, si nous voulons prédire le prochain événement dans une séquence basée sur la connaissance des événements précédents. La prédiction de Solomonoff (Solomonoff 1964) est prouvée optimale à plusieurs égards, y compris qu'elle «apprendra à prédire correctement toute séquence calculable avec seulement la quantité minimale absolue de données». (Hutter, Legg & Vitanyi 2007) Un prédicteur de Solomonoff pondère tous les programmes compatibles avec les données existantes, selon la complexité de Kolmogorov du programme et la probabilité que le programme attribue aux données jusqu'à présent, combinant les philosophies épicurienne («garder toutes les théories») et Ockham («préférer les théories simples») dans un cadre bayésien.
Les propriétés d'optimalité de la prédiction de Solomonoff expliquent la conclusion solide à laquelle vous faites référence: la moyenne sur des modèles, des sources ou des experts améliore les prédictions, et les prédictions moyennes surpassent même le meilleur prédicteur unique. Les diverses méthodes d'ensemble vues dans la pratique peuvent être considérées comme des approximations calculables de la prédiction de Solomonoff - et certaines comme MML (Wallace 2005) explorent explicitement les liens, bien que la plupart ne le fassent pas.
Wallace (2005) note qu'un prédicteur de Solomonoff n'est pas parcimonieux - il conserve un pool infini de modèles - mais la plus grande partie de la puissance prédictive tombe inévitablement dans un ensemble relativement petit de modèles. Dans certains domaines, le meilleur modèle unique (ou la famille de modèles presque indiscernables) peut représenter une grande partie du pouvoir prédictif et surpasser les ensembles génériques, mais dans les domaines complexes avec peu de théorie, il est fort probable qu'aucune famille ne capture la majorité de la probabilité postérieure, et donc la moyenne sur les candidats plausibles devrait améliorer les prévisions. Pour remporter le prix Netflix, l'équipe Bellkor a mélangé plus de 450 modèles (Koren 2009).
Les humains recherchent généralement une seule bonne explication: dans des domaines de "haute théorie" comme la physique, ceux-ci fonctionnent bien. En effet, s'ils captent la dynamique causale sous-jacente, ils devraient être presque imbattables. Mais là où les théories disponibles ne correspondent pas étroitement aux phénomènes (par exemple, recommandation cinématographique ou géopolitique), les modèles uniques seront moins performants: tous sont incomplets, donc aucun ne devrait dominer. Ainsi, l'accent mis récemment sur les ensembles (pour l'apprentissage automatique) et Wisdom of the Crowds (pour les experts), et le succès de programmes comme IARPA ACE et en particulier le Good Judgment Project (Tetlock & Gardiner 2015).
Les références
la source