Forêts aléatoires en ligne en ajoutant plus d'arbres de décisions uniques

13

Une forêt aléatoire (RF) est créée par un ensemble d'arbres de décision (DT). En utilisant l'ensachage, chaque DT est formé dans un sous-ensemble de données différent. Par conséquent, existe-t-il un moyen de mettre en œuvre une forêt aléatoire en ligne en ajoutant plus de décision sur les nouvelles données?

Par exemple, nous avons 10 000 échantillons et formons 10 DT. Ensuite, nous obtenons des échantillons 1K, et au lieu de réentraîner le RF complet, nous ajoutons un nouveau DT. La prédiction est maintenant faite par la moyenne bayésienne de 10 + 1 DT.

De plus, si nous conservons toutes les données précédentes, les nouveaux DT peuvent être formés principalement dans les nouvelles données, où la probabilité de prélèvement d'un échantillon est pondérée en fonction du nombre de fois déjà sélectionné.

tashuhka
la source

Réponses:

8

Il existe un article récent sur ce sujet ( Forêts aléatoires en ligne ), issu de la vision par ordinateur. Voici une implémentation et une présentation: Forêts aléatoires en ligne en 10 minutes

Emre
la source
La mise en œuvre que vous avez mentionnée suit une stratégie d'arboriculture, comme les forêts de Mondrian ( arxiv.org/abs/1406.2673 ). Par conséquent, le nombre d'arbres est constant tandis que le nombre de divisions augmente. Ma question se concentre sur l'augmentation du nombre d'arbres pour de nouveaux échantillons tout en restant intact les arbres précédemment formés.
tashuhka
1
Comme ça ? Ne voulez-vous pas aussi abattre des arbres le cas échéant?
Emre
Je vous remercie. C'est plus semblable à ce que je recherche. Dans ce cas, utilisez RF pour la sélection des caractéristiques des signaux variant dans le temps. Cependant, la mise en œuvre spécifique et la validité de la méthode ne sont pas très claires, savez-vous s'ils ont publié quelque chose (Google n'a pas aidé)?
tashuhka
Merci pour le lien! Je peux voir qu'ils mettent à jour tous les arbres précédents en utilisant une stratégie de croissance des arbres, et je suis intéressé à créer de nouveaux DT avec les nouvelles données tout en préservant les anciens arbres.
tashuhka