Algorithme d'optimisation des arbres de décision

Contexte

Un arbre de décision binaire $T$ est un arbre enraciné où chaque nœud interne (et racine) est étiqueté par un index sorte qu'aucun chemin de la racine à la feuille ne répète un index, les feuilles sont étiquetés par des sorties dans , et chaque bord est étiqueté par pour l'enfant gauche et pour l'enfant droit. Pour appliquer un arbre à une entrée : $j \in \{1,..., n\}$ $\{A,B\}$ $0$ $1$ $x$

Commencez à la racine
si vous êtes à leaf, vous sortez le label leaf ou et vous terminez $A$ $B$
Lisez l'étiquette de votre nœud actuel, si déplacez-vous vers l'enfant de gauche et si déplacez-vous vers l'enfant de droite. $j$ $x_j = 0$ $x_j = 1$
passer à l'étape (2)

L'arbre est utilisé comme un moyen d'évaluer une fonction, en particulier on dit qu'un arbre représente une fonction totale si pour chaque on a . La complexité de requête d'un arbre est sa profondeur, et la complexité de requête d'une fonction est la profondeur du plus petit arbre qui la représente. $T$ $f$ $x \in \{0,1\}^n$ $T(x) = f(x)$

Problème

Étant donné un arbre de décision binaire T, un arbre de décision binaire T 'de profondeur minimale telle que T et T' représente la même fonction.

Question

Quel est l'algorithme le plus connu pour cela? Des limites inférieures sont-elles connues? Et si nous savons que la $\text{depth}(T') = O(\log \text{depth}(T))$ ? Qu'en est-il si nous exigeons seulement que $T'$ soit d'une profondeur approximativement minimale?

Approche naïve

L'approche naïve est donnée $d = \text{depth}(T)$ pour énumérer récursive tous les arbres de décision binaires de profondeur $d - 1$ tout en testant si elles évaluent à la même chose que $T$ . Cela semble nécessiter étapes (en supposant qu'il fautétapes pour vérifier ce queévalue pour unarbitraire). Est-ce qu'il y a une meilleure approche? $O(\frac{d 2^n n!}{(n - d)!})$ $d$ $T(x)$ $x$

Motivation

Cette question est motivée par une question précédente sur le compromis entre la complexité des requêtes et la complexité temporelle . En particulier, l'objectif est de limiter la séparation temporelle pour les fonctions totales. On peut faire un arbre partir d'un algorithme optimal dans le temps avec le temps d'exécution , puis on voudrait le convertir en arbre pour un algorithme optimal de requête. Malheureusement, si (Et souvent $T$ $t$ $T'$ $t \in O(n!/(n - d)!)$ $d \in \Theta(n)$ ) le goulot d'étranglement est la conversion. Ce serait bien si nous pouvions remplacer par quelque chose comme . $n!/(n - d)!$ $2^d$

ds.algorithms query-complexity decision-trees Artem Kaznatcheev
la source

Trouver l'arbre de décision optimal est NP-complet. On m'a appris cela dans les cours de théorie de la décision et d'exploration de données, mais ceux-ci étaient basés sur des notes et je ne connais pas le document original qui a introduit le résultat.

chazisop

@chazisop cool, merci. Il n'est pas évident pour moi que trouver l'arbre de décision optimal soit dans NP, mais j'y penserai / le rechercherai un peu plus. Parfois, connaître l'énoncé du théorème est à mi-chemin de le prouver: D.

Artem Kaznatcheev

Je pense que la première référence à ce sujet est: des limites inférieures sur les listes de décision d'apprentissage et les arbres. (Hancock et al.1994

Lev Reyzin

La preuve que trouver l'arbre de décision optimal est un problème NP-complet a été donnée par Laurent Hyafil et Ronald L. Rivest dans Construire des arbres de décision binaires optimaux est NP-complete (1976). référence: ici

antoine

Réponses:

J'ai 3 réponses, donnant toutes des résultats de dureté quelque peu différents.

Soit une fonction. $f: \{0,1\}^n \rightarrow \{0,1\}$

Réponse 1

Etant donné un arbre de décision calculant et un nombre, il est NP-difficile de dire s'il existe un arbre de décision calculant de taille au plus égale à ce nombre. $T$ $f$ $T'$ $f$ ( Zantema et Bodlaender '00 )

Réponse 2

Étant donné un arbre de décision calculant , il est difficile pour NP d'approximer le plus petit arbre de décision calculant à un facteur constant. $T$ $f$ $f$ ( Sieling '08 )

Réponse 3

Soit la taille du plus petit arbre de décision calcul . Étant donné un arbre de décision calculant , en supposant pour certains , on ne peut pas trouver un arbre de décision équivalent de taille pour tout . $s$ $f$ $T$ $f$ $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $T'$ $s^k$ $k \ge 0$

Je pense que cette réponse plus forte (reposant sur une hypothèse plus faible) peut être faite à partir de résultats connus dans la théorie d'apprentissage des algorithmes d'Occam pour les arbres de décision, via l'argument suivant:

Est-il possible de trouver un arbre de décision sur variables dans le temps , où est le plus petit arbre de décision cohérent avec des exemples issus d'une distribution (modèle PAC). ( Blum '92 ) $n$ $n^{\log s}$ $s$
En supposant pour un certain , on ne peut pas savoir PAC taille les arbres de décision selon la taille des arbres de décision pour tout . ( Alekhnovich et al. '07 ) $NP \subsetneq DTIME(2^{n^\epsilon})$ $\epsilon < 1$ $s$ $s^k$ $k \ge 0$

Ces deux résultats semblent impliquer un résultat de dureté pour votre problème. D'une part (1), nous pouvons trouver un grand arbre de décision; d'autre part (2), nous ne devrions pas pouvoir le minimiser pour en obtenir un "petit" équivalent, de taille , même lorsqu'il existe de taille . $s^k$ $s$

Lev Reyzin
la source

(J'ai trouvé votre réponse à partir de cette réponse , qui a été publiée il y a moins d'une heure.)

$\:$ Il semble que "

" puisse être remplacé par "positif

, car la diminution de

rend le côté droit du confinement plus petit .

ϵ < 1

$\epsilon < 1$

ϵ

$\epsilon$

ϵ

$\epsilon$

$\:$ De plus, où dans cet article est 2. montré?

$\;\;\;\;$

Voir le point n ° 2 dans le résumé ici: researcher.watson.ibm.com/researcher/files/us-vitaly/…

Lev Reyzin

(provenant de la même réponse que Ricky Demer) pourriez-vous détailler un peu plus comment obtenir la "réponse 3" des points 1. et 2.? Je ne suis pas très familier avec l'apprentissage de la théorie et j'ai du mal à connecter les parties ...

Marc

Ce problème de cohérence et d'apprentissage est étroitement lié via le rasoir d'Occam. L'idée est que si vous pouvez trouver une fonction cohérente à partir d'un petit ensemble, vous pouvez réussir l'apprentissage PAC. Par conséquent, un résultat de dureté d'apprentissage implique un résultat de "dureté de cohérence". Je ne sais pas combien de plus je peux expliquer dans un commentaire ...

Lev Reyzin

Pour autant que je le comprenne, l'algorithme évoqué pour 1. ne fonctionne pas dans le temps

qui serait nécessaire pour obtenir une contradiction avec 2. (le résultat précis dans l'article si je l'ai bien compris) dit qu'il n'y a pas d'algorithme d'apprentissage polytime pour les arbres de décision). Il pourrait donc y avoir un problème avec votre argumentation.

P o l y (n, s)

$Poly(n,s)$

Marc