Des résultats théoriques pour des forêts aléatoires?

9

Les forêts aléatoires ont la réputation parmi les praticiens d'être parmi les techniques de classification les plus efficaces. Pourtant, nous ne les rencontrons pas beaucoup dans la littérature de la théorie de l'apprentissage, dont je présume une absence de résultats théoriques profonds. Si l'on voulait approfondir cette théorie, par où commencer?

Aryeh
la source
2
Il y a un nouveau document dans la prochaine SODA'15 qui pourrait être pertinent. Voir meetings.siam.org/sess/dsp_talk.cfm?p=68795
Chandra Chekuri
@ChandraChekuri, je ne vois qu'un résumé, mais pas un papier. Existe-t-il un document complet? Et cela a-t-il quelque chose à voir avec la méthode d'apprentissage automatique des forêts aléatoires (pour les tâches d'apprentissage / de classification supervisées)?
DW
@DW Écrivez aux auteurs et voyez s'ils sont prêts à partager une copie. Je connais les résultats mais je n'ai pas vu le document moi-même.
Chandra Chekuri du

Réponses:

5

Suite à la réponse de Simone, Gerard Biau a plusieurs très bons articles sur la convergence et la cohérence pour les forêts aléatoires. Les analyses concernent des versions légèrement simplifiées de l'algorithme par rapport à Breiman 2001, mais moins simplifiées que les résultats précédents.

Les articles de Biau (ainsi que ses collaborateurs) sont tous disponibles sur son site Web:

http://www.lsta.upmc.fr/BIAU/publications.html

Un travail particulièrement pertinent est un travail "sous presse" sur la cohérence: http://www.lsta.upmc.fr/BIAU/sbv.pdf

Il existe 2 ou 3 autres articles à contenu forestier aléatoire. Je viens de rejoindre cstheory, donc je ne peux pas poster plus de deux liens mais le site de publications ci-dessus les a tous.

J'espère que cela vous sera utile. Il semble qu'il y ait eu un regain d'activité récente depuis 2008, après une période d'utilisation largement empirique de la méthode. Et la bonne nouvelle est que les recherches théoriques semblent montrer que la méthode est robuste et possède de bonnes propriétés.

Mark Madsen
la source
6

Je suppose que vous avez déjà jeté un œil au document de Breiman de 2001 sur la RF. Je peux simplement signaler quelques autres références:

Comparaisons empiriques de différentes simplifications RF qui permettent de prouver les théorèmes: Réduire l'écart: les forêts aléatoires en théorie et en pratique

Ceci est la nouvelle référence que je peux fournir. Dans cet article, vous pouvez également trouver quelques citations des articles de Biau sur le travail initial sur les résultats théoriques pour RF.

Si vous êtes intéressé par les résultats théoriques sur l'importance variable des RF: Comprendre les importances variables dans les forêts d'arbres randomisés

En fait, je viens de découvrir que l'auteur du dernier article (Gilles Louppe) vient de publier sur arxiv sa thèse de doctorat (v2): Understanding Random Forests: From Theory to Practice

Simone
la source