Quel est le côté faible des arbres de décision?

34

Les arbres de décision semblent être une méthode d’apprentissage automatique très compréhensible. Une fois créé, il peut être facilement inspecté par un humain, ce qui constitue un avantage considérable pour certaines applications.

Quels sont les inconvénients pratiques des arbres de décision?

Łukasz Lew
la source

Réponses:

37

Voici un couple auquel je peux penser:

  • Ils peuvent être extrêmement sensibles aux petites perturbations dans les données: un léger changement peut entraîner un arbre radicalement différent.
  • Ils peuvent facilement overfit. Cela peut être annulé par les méthodes de validation et d'élagage, mais il s'agit d'une zone grise.
  • Ils peuvent avoir des problèmes de prédiction hors échantillon (ceci est lié au fait qu'ils ne sont pas lisses).

Certaines d'entre elles sont liées au problème de la multicolinéarité : lorsque deux variables expliquent la même chose, un arbre de décision choisit avidement la meilleure, alors que de nombreuses autres méthodes les utilisent toutes les deux. Les méthodes d'ensemble telles que les forêts aléatoires peuvent nier cela dans une certaine mesure, mais vous perdez la facilité de compréhension.

Cependant, le plus gros problème, de mon point de vue au moins, est l’absence d’un cadre probabiliste fondé sur des principes. Beaucoup d'autres méthodes ont des choses comme les intervalles de confiance, les distributions postérieures, etc., qui nous donnent une idée de la qualité d'un modèle. Un arbre de décision est finalement une heuristique ad hoc, qui peut toujours être très utile (ils sont excellents pour trouver les sources de bogues dans le traitement des données), mais il existe un danger pour les personnes qui traitent la sortie comme "le" modèle correct expérience, cela arrive souvent dans le marketing).

Simon Byrne
la source
2
D'un point de vue ML, les arbres peuvent être testés de la même manière que tout autre classificateur (CV par exemple). Cela montre quand même qu'il y a eu beaucoup de surdimensionnement ;-) RF n'échappe pas à la multicolinéarité, non pas parce que c'est un ensemble, mais parce que ses arbres sont sous-optimaux.
2
Pour un cadre probabiliste d'arbres de décision, voir DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ) qui est basé sur l'article "Wallace CS & Patrick JD, 'Coding Decision Trees', Machine Learning , 11, 1993, pages 7-22 ".
emakalic
2
En outre, n'est-il pas possible d'obtenir un CI (pour les prédictions) en utilisant l'amorçage?
Tal Galili
@Simon Byrne, j'ai une question à propos de votre commentaire "Cependant, le plus gros problème, de mon point de vue au moins, est l'absence d'un cadre probabiliste fondé sur des principes". Pardonnez mon ignorance, mais pourriez-vous m'indiquer quelques cadres probabilistes basés sur des principes pratiques (en particulier dans le contexte de la classification). Je suis très intéressé par cette limitation des arbres de décision.
Amelio Vazquez-Reina
2
@AmV, un exemple serait la régression logistique: nous pouvons utiliser le fait que chaque observation provient d’un binôme pour obtenir des intervalles de confiance / crédibles et vérifier les hypothèses du modèle.
Simon Byrne
23

Un inconvénient est que tous les termes sont supposés interagir. Autrement dit, vous ne pouvez pas avoir deux variables explicatives qui se comportent indépendamment. Chaque variable de l’arbre est obligée d’interagir avec chaque variable plus en amont de l’arbre. Ceci est extrêmement inefficace s'il existe des variables qui ont des interactions nulles ou faibles.

Rob Hyndman
la source
Je me demande cependant s’il s’agit là d’une limitation pratique - pour une variable qui n’influence que faiblement la classification, mon intuition est que Tree ne se divisera probablement pas sur cette variable (c’est-à-dire que cela ne sera pas un nœud), ce qui signifie il est invisible dans la mesure où la classification de l'arbre décisionnel est utilisée.
Doug
Je parle d’interactions faibles, pas d’effets faibles sur la classification. Une interaction est une relation entre deux des variables prédictives.
Rob Hyndman
2
Cela peut sembler inefficace, mais l’arborescence peut le gérer.
C'est pourquoi j'ai dit inefficace plutôt que biaisée ou incorrecte. Si vous avez des charges de données, peu importe. Mais si vous adaptez un arbre à quelques centaines d'observations, les interactions supposées peuvent considérablement réduire la précision prédictive.
Rob Hyndman
2
Se mettre d'accord; Je voulais juste le souligner. Je pense toujours que la réduction de la précision prédictive peut être supprimée en utilisant une formation appropriée; en phylogénétique, le problème similaire (gourmandise) est réduit par le balayage de Monte-Carlo de l'espace possible pour en trouver le maximum de vraisemblance - je ne sais pas s'il existe une approche similaire dans les statistiques, probablement personne ne s'est ennuyé de ampleur.
12

Ma réponse s'adresse à CART (les implémentations C 4.5 / C 5) bien que je ne pense pas qu'ils soient limités à cela. J'imagine que c'est ce que le PO a à l'esprit - c'est généralement ce que quelqu'un veut dire quand il dit "Arbre de décision".

Limites des arbres de décision :


Faible niveau de rendement

Par «performance», je ne parle pas de résolution, mais de vitesse d'exécution . La raison pour laquelle il est pauvre est que vous devez «redessiner l’arbre» ​​chaque fois que vous souhaitez mettre à jour votre modèle CART - des données classifiées par un arbre déjà formé, que vous souhaitez ensuite ajouter à l’arbre (c’est-à-dire, utiliser point de données d'apprentissage) nécessite que vous commenciez à partir d'instances surentraînées ne puissent pas être ajoutées progressivement, comme c'est le cas pour la plupart des autres algorithmes d'apprentissage supervisé. La meilleure façon de le dire est peut-être que les arbres de décision ne peuvent pas être formés en mode en ligne, mais uniquement en mode de traitement par lots. Évidemment, vous ne remarquerez pas cette limitation si vous ne mettez pas à jour votre classificateur, mais je m'attendrais à ce que vous constatiez une baisse de résolution.

Ceci est significatif car pour les Perceptrons multicouches par exemple, une fois qu'il est formé, il peut commencer à classer les données; ces données peuvent également être utilisées pour «ajuster» le classifieur déjà formé. Cependant, avec les arbres de décision, vous devez vous reconvertir avec l'ensemble de données (les données d'origine utilisées lors de la formation et toutes les nouvelles instances).


Mauvaise résolution des données avec des relations complexes entre les variables

Les arbres de décision classifient, par étapes, l’évaluation d’un point de données de classe inconnue, un nœud à la fois, en commençant au nœud racine et se terminant par un nœud terminal. Et à chaque nœud, seules deux possibilités sont possibles (gauche à droite), il existe donc certaines relations variables que les arbres de décision ne peuvent tout simplement pas apprendre.


Pratiquement limité à la classification

Les arbres de décision fonctionnent mieux lorsqu'ils sont formés pour attribuer un point de données à une classe - de préférence l'une des rares classes possibles. Je ne pense pas avoir jamais réussi à utiliser un arbre de décision en mode de régression (c.-à-d. Une sortie continue, telle que le prix ou le revenu escompté à vie). Ce n'est pas une limitation formelle ou inhérente, mais pratique. La plupart du temps, les arbres de décision sont utilisés pour prédire des facteurs ou des résultats discrets.


Résolution médiocre avec variables d'espérance continue

Encore une fois, en principe, il est correct d’avoir des variables indépendantes telles que "temps de téléchargement" ou "nombre de jours depuis le dernier achat en ligne" - modifiez simplement votre critère de division en variance Expérience Les arbres de décision fonctionnent rarement bien dans ce cas. Les exceptions sont des cas tels que "l'âge de l'étudiant" qui semble continu, mais dans la pratique, la plage de valeurs est assez petite (en particulier si elles sont rapportées sous forme d'entiers).

doug
la source
1
+1 pour le bon appel sur l'angle de performance, qui ne joue généralement pas assez. J'ai constaté que Decision Trees rencontrait des problèmes de performances sur plusieurs plates-formes logicielles conçues pour des ensembles de données volumineux (tels que SQL Server), du moins par rapport à d'autres méthodes d'exploration de données. C'est en dehors de toute la question du recyclage que vous avez évoquée. Il semble s'aggraver dans les cas de surajustement (bien que l'on puisse en dire autant de nombreux autres algorithmes d'extraction).
SQLServerSteve
10

Il y a de bonnes réponses ici, mais je suis surpris qu'une chose n'ait pas été soulignée. CART ne fait aucune hypothèse de distribution sur les données, en particulier la variable de réponse. En revanche, la régression OLS (pour les variables continues) et la régression logistique (pour certaines variables de réponse catégorique), par exemple, ne font des hypothèses fortes; en particulier, la régression OLS suppose que la réponse est distribuée normalement de manière conditionnelle, et la logistique suppose que la réponse est binomiale ou multinomiale.

L'absence de telles hypothèses chez CART est une arme à double tranchant. Lorsque ces hypothèses ne sont pas justifiées, cela donne à la méthode un avantage relatif. D'autre part, lorsque ces hypothèses sont valables, il est possible d'extraire plus d'informations des données en tenant compte de ces faits. Autrement dit, les méthodes de régression standard peuvent être plus informatives que CART lorsque les hypothèses sont vraies.

gung - Rétablir Monica
la source