La somme de deux arbres de décision est-elle équivalente à un seul arbre de décision?

15

Supposons que nous ayons deux arbres de régression (arbre A et B) que l' arbre d' entrée de carte de sortie yR . Soit y = f A ( x ) de l' arbre A et f B ( x ) de l' arbre B. Chaque arbre utilise fentes binaire, avec des hyperplans que les fonctions de séparation.XRy^Ry^=FUNE(X)FB(X)

Supposons maintenant que nous prenons une somme pondérée des sorties d'arbre:

fC(x)=wA fA(x)+wB fB(x)

La fonction équivalente à un seul arbre de régression (plus profond)? fCSi la réponse est "parfois", dans quelles conditions?

Idéalement, je voudrais autoriser les hyperplans obliques (c'est-à-dire les divisions effectuées sur des combinaisons linéaires de caractéristiques). Mais, en supposant que les fractionnements à fonctionnalité unique pourraient être corrects si c'est la seule réponse disponible.

Exemple

Voici deux arbres de régression définis sur un espace d'entrée 2D:

entrez la description de l'image ici

La figure montre comment chaque arborescence partitionne l'espace d'entrée et la sortie de chaque région (codée en niveaux de gris). Les nombres en couleur indiquent les régions de l'espace d'entrée: 3,4,5,6 correspondent aux nœuds foliaires. 1 est l'union de 3 & 4, etc.

Supposons maintenant que nous faisons la moyenne de la sortie des arbres A et B:

entrez la description de l'image ici

Le rendement moyen est tracé sur la gauche, avec les limites de décision des arbres A et B superposées. Dans ce cas, il est possible de construire un arbre unique, plus profond dont la sortie est équivalente à la moyenne (tracé à droite). Chaque nœud correspond à une région d'espace d'entrée qui peut être construite à partir des régions définies par les arbres A et B (indiquées par des nombres colorés sur chaque nœud; plusieurs nombres indiquent l'intersection de deux régions). Notez que cet arbre n'est pas unique - nous aurions pu commencer à construire à partir de l'arbre B au lieu de l'arbre A.

Cet exemple montre qu'il existe des cas où la réponse est "oui". J'aimerais savoir si c'est toujours vrai.

user20160
la source
2
Hmm .. Si c'était le cas, pourquoi former une forêt au hasard? (Parce qu'il est clair que la combinaison linéaire de 500 arbres peut être ré-exprimée en 499 sommes par paire pondérées de 500 arbres) Belle question, +1.
usεr11852 dit Réintégrer Monic
question interessante! Je suppose que l'espace d'hypothèse des arbres de décision et des ensembles d'arbres de décision (amplification, combinaison linéaire d'arbres) est le même. Dans l'attente d'une réponse ..
Laksan Nathan
@ usεr11852 Peut-être parce que l'utilisation d'un seul très grand arbre au lieu d'une forêt est tellement plus lente? Tout comme dans les réseaux de neurones, les réseaux à couche cachée peuvent déjà approximer toutes les fonctions continues, mais l'ajout de couches accélère le réseau. Je ne dis pas que c'est le cas ici, mais c'est possible.
Harto Saarinen
1
@HartoSaarinen: C'est une façon intéressante de penser à cela, mais je soupçonne que cela ne tient pas facilement. Il est admis que les arbres très profonds peuvent sur-s'adapter et se généraliser mal (leurs prédictions sont également assez instables). De plus (en ce qui concerne les considérations de vitesse), les arbres plus profonds nécessitent exponentiellement plus de divisions et donc plus de temps d'entraînement. (Un arbre de profondeur 10 a au plus 1023 divisions mais un arbre de profondeur 20, 1048575 se divise. Beaucoup plus de travail!)
usεr11852 dit Reinstate Monic
1
@ usεr11852 Je suis d'accord que cela pourrait être totalement faux et que la réponse pourrait être quelque chose de totalement différent. C'est ce qui rend le domaine si intéressant en ce moment, beaucoup de choses à découvrir!
Harto Saarinen

Réponses:

6

Oui, la somme pondérée d'un arbre de régression équivaut à un seul arbre de régression (plus profond).

Approximateur de fonction universel

Un arbre de régression est un approximateur de fonction universel (voir par exemple cstheory ). La plupart des recherches sur les approximations des fonctions universelles sont effectuées sur des réseaux de neurones artificiels avec une couche cachée (lire ce grand blog). Cependant, la plupart des algorithmes d'apprentissage automatique sont des approximations de fonctions universelles.

Être un approximateur de fonction universelle signifie que toute fonction arbitraire peut être approximativement représentée. Ainsi, quelle que soit la complexité de la fonction, une approximation de la fonction universelle peut la représenter avec la précision souhaitée. Dans le cas d'un arbre de régression, vous pouvez imaginer un arbre infiniment profond. Cet arbre infiniment profond peut attribuer n'importe quelle valeur à n'importe quel point de l'espace.

Puisqu'une somme pondérée d'un arbre de régression est une autre fonction arbitraire, il existe un autre arbre de régression qui représente cette fonction.

Un algorithme pour créer un tel arbre

T1T2T2T1T1T2

L'exemple ci-dessous montre deux arbres simples qui sont ajoutés avec un poids de 0,5. Notez qu'un nœud ne sera jamais atteint, car il n'existe pas un nombre inférieur à 3 et supérieur à 5. Cela indique que ces arbres peuvent être améliorés, mais cela ne les rend pas invalides.

entrez la description de l'image ici

Pourquoi utiliser des algorithmes plus complexes

@ Usεr11852 a soulevé une question supplémentaire intéressante dans les commentaires: pourquoi utiliserions-nous des algorithmes de renforcement (ou en fait un algorithme d'apprentissage automatique complexe) si chaque fonction peut être modélisée avec un arbre de régression simple?

Les arbres de régression peuvent en effet représenter n'importe quelle fonction mais ce n'est qu'un critère pour un algorithme d'apprentissage automatique. Une autre propriété importante est la façon dont ils se généralisent. Les arbres de régression profonde ont tendance à sur-ajuster, c'est-à-dire qu'ils ne se généralisent pas bien. Une forêt aléatoire fait en moyenne beaucoup d'arbres profonds pour éviter cela.

Pieter
la source