Forêts aléatoires en ligne en ajoutant plus d'arbres de décisions uniques

Une forêt aléatoire (RF) est créée par un ensemble d'arbres de décision (DT). En utilisant l'ensachage, chaque DT est formé dans un sous-ensemble de données différent. Par conséquent, existe-t-il un moyen de mettre en œuvre une forêt aléatoire en ligne en ajoutant plus de décision sur les nouvelles données?

Par exemple, nous avons 10 000 échantillons et formons 10 DT. Ensuite, nous obtenons des échantillons 1K, et au lieu de réentraîner le RF complet, nous ajoutons un nouveau DT. La prédiction est maintenant faite par la moyenne bayésienne de 10 + 1 DT.

De plus, si nous conservons toutes les données précédentes, les nouveaux DT peuvent être formés principalement dans les nouvelles données, où la probabilité de prélèvement d'un échantillon est pondérée en fonction du nombre de fois déjà sélectionné.

random-forest online-learning tashuhka
la source

Réponses:

Il existe un article récent sur ce sujet ( Forêts aléatoires en ligne ), issu de la vision par ordinateur. Voici une implémentation et une présentation: Forêts aléatoires en ligne en 10 minutes

Emre
la source

La mise en œuvre que vous avez mentionnée suit une stratégie d'arboriculture, comme les forêts de Mondrian ( arxiv.org/abs/1406.2673 ). Par conséquent, le nombre d'arbres est constant tandis que le nombre de divisions augmente. Ma question se concentre sur l'augmentation du nombre d'arbres pour de nouveaux échantillons tout en restant intact les arbres précédemment formés.

tashuhka

Comme ça ? Ne voulez-vous pas aussi abattre des arbres le cas échéant?

Emre

Je vous remercie. C'est plus semblable à ce que je recherche. Dans ce cas, utilisez RF pour la sélection des caractéristiques des signaux variant dans le temps. Cependant, la mise en œuvre spécifique et la validité de la méthode ne sont pas très claires, savez-vous s'ils ont publié quelque chose (Google n'a pas aidé)?

tashuhka

Calcul de l'importance des fonctionnalités dans les flux de données avec la dérive de concept à l'aide de la forêt aléatoire en ligne

Emre

Merci pour le lien! Je peux voir qu'ils mettent à jour tous les arbres précédents en utilisant une stratégie de croissance des arbres, et je suis intéressé à créer de nouveaux DT avec les nouvelles données tout en préservant les anciens arbres.

tashuhka