Pourquoi les ensembles sont-ils si déraisonnablement efficaces

14

Il semble être devenu axiomatique qu'un ensemble d'apprenants aboutisse aux meilleurs résultats de modèles possibles - et il devient de plus en plus rare, par exemple, que des modèles uniques gagnent des compétitions telles que Kaggle. Y a-t-il une explication théorique pour expliquer pourquoi les ensembles sont si efficaces?

Robert de Graaf
la source
1
Je suppose que c'est le théorème de la limite centrale, mais je n'ai aucune justification.

Réponses:

13

Pour un modèle spécifique, vous lui fournissez des données, choisissez les fonctionnalités, choisissez les hyperparamètres, etc. Comparé à la réalité il fait trois types d'erreurs:

  • Biais (en raison de la complexité trop faible du modèle, d'un biais d'échantillonnage dans vos données)
  • Écart (en raison du bruit dans vos données, du sur-ajustement de vos données)
  • Caractère aléatoire de la réalité que vous essayez de prédire (ou manque de fonctions prédictives dans votre ensemble de données)

Les ensembles font la moyenne d'un certain nombre de ces modèles. Le biais dû au biais d'échantillonnage ne sera pas corrigé pour des raisons évidentes, il peut corriger une partie du biais de complexité du modèle, mais les erreurs de variance qui sont commises sont très différentes sur vos différents modèles. Les modèles à corrélation particulièrement faible font des erreurs très différentes dans ce domaine, certains modèles fonctionnent bien dans certaines parties de votre espace de fonctionnalités. En faisant la moyenne de ces modèles, vous réduisez un peu cette variance. C'est pourquoi les ensembles brillent.

Jan van der Vegt
la source
6

La réponse choisie est fantastique, mais je voudrais ajouter deux choses:

  1. Il a été observé que la moyenne des prédictions humaines donne de meilleures prédictions que toute prédiction individuelle. Ceci est connu comme la sagesse de la foule . Maintenant, vous pourriez faire valoir que c'est parce que certaines personnes ont des informations différentes, vous faites donc la moyenne des informations. Mais non, cela est vrai même pour des tâches telles que deviner le nombre de grains dans un bocal. Je suppose que cela a à voir avec certaines des raisons données ci-dessus à propos des modèles d'exploration de données.
  2. Certaines techniques telles que la méthode d'abandon dans les réseaux de neurones (où à chaque itération pendant la formation vous n'utilisez qu'un morceau de votre réseau de neurones) donnent des résultats similaires à un ensemble de réseaux de neurones. La raison est que vous forcez efficacement les nœuds à effectuer le même travail de prédicteur que les autres nœuds, créant ainsi un méta-ensemble. Je dis cela pour faire valoir que nous pourrons peut-être introduire certains des avantages des ensembles dans les modèles traditionnels.
Ricardo Cruz
la source
6

Les ensembles gagnent à la prévision pour des raisons théoriques et pratiques.

Il existe une théorie fondamentale de la prévision optimale, si nous voulons prédire le prochain événement dans une séquence basée sur la connaissance des événements précédents. La prédiction de Solomonoff (Solomonoff 1964) est prouvée optimale à plusieurs égards, y compris qu'elle «apprendra à prédire correctement toute séquence calculable avec seulement la quantité minimale absolue de données». (Hutter, Legg & Vitanyi 2007) Un prédicteur de Solomonoff pondère tous les programmes compatibles avec les données existantes, selon la complexité de Kolmogorov du programme et la probabilité que le programme attribue aux données jusqu'à présent, combinant les philosophies épicurienne («garder toutes les théories») et Ockham («préférer les théories simples») dans un cadre bayésien.

Les propriétés d'optimalité de la prédiction de Solomonoff expliquent la conclusion solide à laquelle vous faites référence: la moyenne sur des modèles, des sources ou des experts améliore les prédictions, et les prédictions moyennes surpassent même le meilleur prédicteur unique. Les diverses méthodes d'ensemble vues dans la pratique peuvent être considérées comme des approximations calculables de la prédiction de Solomonoff - et certaines comme MML (Wallace 2005) explorent explicitement les liens, bien que la plupart ne le fassent pas.

Wallace (2005) note qu'un prédicteur de Solomonoff n'est pas parcimonieux - il conserve un pool infini de modèles - mais la plus grande partie de la puissance prédictive tombe inévitablement dans un ensemble relativement petit de modèles. Dans certains domaines, le meilleur modèle unique (ou la famille de modèles presque indiscernables) peut représenter une grande partie du pouvoir prédictif et surpasser les ensembles génériques, mais dans les domaines complexes avec peu de théorie, il est fort probable qu'aucune famille ne capture la majorité de la probabilité postérieure, et donc la moyenne sur les candidats plausibles devrait améliorer les prévisions. Pour remporter le prix Netflix, l'équipe Bellkor a mélangé plus de 450 modèles (Koren 2009).

Les humains recherchent généralement une seule bonne explication: dans des domaines de "haute théorie" comme la physique, ceux-ci fonctionnent bien. En effet, s'ils captent la dynamique causale sous-jacente, ils devraient être presque imbattables. Mais là où les théories disponibles ne correspondent pas étroitement aux phénomènes (par exemple, recommandation cinématographique ou géopolitique), les modèles uniques seront moins performants: tous sont incomplets, donc aucun ne devrait dominer. Ainsi, l'accent mis récemment sur les ensembles (pour l'apprentissage automatique) et Wisdom of the Crowds (pour les experts), et le succès de programmes comme IARPA ACE et en particulier le Good Judgment Project (Tetlock & Gardiner 2015).

Les références

  • M. Hutter, S. Legg et P. Vitanyi, «Probabilité algorithmique», Scholarpedia, vol. 2, 2007, p. 2572.
  • Y. Koren, «La solution BellKor au grand prix Netflix», 2009.
  • Solomonoff, Ray (mars 1964). "Une théorie formelle de l'inférence inductive Partie I" (PDF). Information et contrôle 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
  • Solomonoff, Ray (juin 1964). "Une théorie formelle de l'inférence inductive Partie II" (PDF). Information et contrôle 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
  • PE Tetlock, Jugement politique expert: à quel point est-ce bon? Comment pouvons-nous savoir?, Princeton University Press, 2005.
  • Tetlock, PE et Gardner, D. (2015). Superforecasting: L'art et la science de la prédiction. New York: Couronne.
  • CS Wallace, Inférence statistique et inductive par longueur minimale de message, Springer-Verlag, 2005.
ctwardy
la source