Quelles sont les garanties théoriques de l'ensachage

17

J'ai (approximativement) entendu que:

l'ensachage est une technique pour réduire la variance d'un prédicteur / estimateur / algorithme d'apprentissage.

Cependant, je n'ai jamais vu de preuve mathématique formelle de cette affirmation. Est-ce que quelqu'un sait pourquoi c'est mathématiquement vrai? Il semble que ce soit un fait si largement accepté / connu que je m'attendrais à une référence directe à cela. Je serais surpris s'il n'y en avait pas. De plus, quelqu'un sait-il quel effet cela a sur le biais?

Existe-t-il d'autres garanties théoriques d'approches ensachées que quelqu'un sait et pense importantes et veut les partager?

Charlie Parker
la source

Réponses:

21

Le principal cas d'utilisation de l'ensachage est de réduire la variance des modèles à faible biais en les regroupant. Cela a été étudié empiriquement dans le document de référence « Une comparaison empirique des algorithmes de classification des votes: ensachage, amplification et variantes » de Bauer et Kohavi . Cela fonctionne généralement comme annoncé.

Cependant, contrairement à la croyance populaire, l' ensachage n'est pas garanti pour réduire la variance . Une explication plus récente et (à mon avis) meilleure est que l'ensachage réduit l'influence des points de levier. Les points de levier sont ceux qui affectent de manière disproportionnée le modèle résultant, tels que les valeurs aberrantes dans la régression des moindres carrés. Il est rare mais possible que les points de levier influencent positivement les modèles résultants, auquel cas l'ensachage réduit les performances. Jetez un œil à "L' ensachage égalise l'influence " de Grandvalet .

Donc, pour enfin répondre à votre question: l'effet de l'ensachage dépend largement des points de levier. Il existe peu de garanties théoriques, sauf que l'ensachage augmente linéairement le temps de calcul en termes de taille de sac! Cela dit, c'est toujours une technique largement utilisée et très puissante. Lors de l'apprentissage avec le bruit d'étiquette, par exemple, l' ensachage peut produire des classificateurs plus robustes .

Rao et Tibshirani ont donné une interprétation bayésienne dans " La méthode hors bootstrap pour la moyenne et la sélection des modèles " :

En ce sens, la distribution bootstrap représente une distribution postérieure (approximative) non paramétrique et non informative pour notre paramètre. Mais cette distribution bootstrap est obtenue sans douleur - sans avoir à spécifier formellement un a priori et sans avoir à échantillonner à partir de la distribution postérieure. Par conséquent, nous pourrions penser à la distribution bootstrap comme "Bayes postérieur d'un pauvre homme.

Marc Claesen
la source
1
Comment l'explication des «points de levier» s'applique-t-elle aux arbres, qui sont souvent recommandés pour l'ensachage? Bien qu'il soit clair quels sont les points de levier élevés pour la régression linéaire, quels sont ces points pour les arbres?
DavidR
trouvé une autre référence à cette question: quora.com/… qu'en pensez-vous? est-ce que cela contredit le fait que vous avez dit que cela ne réduit pas théoriquement la variance?
Charlie Parker
J'ai vu que wikipedia dit que l'ensachage (agrégation de bootstrap) réduit la variance. S'il n'y a aucune preuve théorique de cela, cela signifie-t-il que l'article est erroné?
Charlie Parker
Dans la plupart des cas, l'ensachage réduit la variance, mais ce n'est pas son mécanisme réel. Grandvalet a montré des exemples où il augmente la variance et a illustré que le mécanisme est plus étroitement lié à l'influence d'égalisation des points de données qui affectent fortement le modèle, comme les valeurs aberrantes dans la régression des moindres carrés, ce qui dans la plupart des cas réduit la variance.
Marc Claesen