Voici un couple auquel je peux penser:
- Ils peuvent être extrêmement sensibles aux petites perturbations dans les données: un léger changement peut entraîner un arbre radicalement différent.
- Ils peuvent facilement overfit. Cela peut être annulé par les méthodes de validation et d'élagage, mais il s'agit d'une zone grise.
- Ils peuvent avoir des problèmes de prédiction hors échantillon (ceci est lié au fait qu'ils ne sont pas lisses).
Certaines d'entre elles sont liées au problème de la multicolinéarité : lorsque deux variables expliquent la même chose, un arbre de décision choisit avidement la meilleure, alors que de nombreuses autres méthodes les utilisent toutes les deux. Les méthodes d'ensemble telles que les forêts aléatoires peuvent nier cela dans une certaine mesure, mais vous perdez la facilité de compréhension.
Cependant, le plus gros problème, de mon point de vue au moins, est l’absence d’un cadre probabiliste fondé sur des principes. Beaucoup d'autres méthodes ont des choses comme les intervalles de confiance, les distributions postérieures, etc., qui nous donnent une idée de la qualité d'un modèle. Un arbre de décision est finalement une heuristique ad hoc, qui peut toujours être très utile (ils sont excellents pour trouver les sources de bogues dans le traitement des données), mais il existe un danger pour les personnes qui traitent la sortie comme "le" modèle correct expérience, cela arrive souvent dans le marketing).
Un inconvénient est que tous les termes sont supposés interagir. Autrement dit, vous ne pouvez pas avoir deux variables explicatives qui se comportent indépendamment. Chaque variable de l’arbre est obligée d’interagir avec chaque variable plus en amont de l’arbre. Ceci est extrêmement inefficace s'il existe des variables qui ont des interactions nulles ou faibles.
la source
Ma réponse s'adresse à CART (les implémentations C 4.5 / C 5) bien que je ne pense pas qu'ils soient limités à cela. J'imagine que c'est ce que le PO a à l'esprit - c'est généralement ce que quelqu'un veut dire quand il dit "Arbre de décision".
Limites des arbres de décision :
Faible niveau de rendement
Par «performance», je ne parle pas de résolution, mais de vitesse d'exécution . La raison pour laquelle il est pauvre est que vous devez «redessiner l’arbre» chaque fois que vous souhaitez mettre à jour votre modèle CART - des données classifiées par un arbre déjà formé, que vous souhaitez ensuite ajouter à l’arbre (c’est-à-dire, utiliser point de données d'apprentissage) nécessite que vous commenciez à partir d'instances surentraînées ne puissent pas être ajoutées progressivement, comme c'est le cas pour la plupart des autres algorithmes d'apprentissage supervisé. La meilleure façon de le dire est peut-être que les arbres de décision ne peuvent pas être formés en mode en ligne, mais uniquement en mode de traitement par lots. Évidemment, vous ne remarquerez pas cette limitation si vous ne mettez pas à jour votre classificateur, mais je m'attendrais à ce que vous constatiez une baisse de résolution.
Ceci est significatif car pour les Perceptrons multicouches par exemple, une fois qu'il est formé, il peut commencer à classer les données; ces données peuvent également être utilisées pour «ajuster» le classifieur déjà formé. Cependant, avec les arbres de décision, vous devez vous reconvertir avec l'ensemble de données (les données d'origine utilisées lors de la formation et toutes les nouvelles instances).
Mauvaise résolution des données avec des relations complexes entre les variables
Les arbres de décision classifient, par étapes, l’évaluation d’un point de données de classe inconnue, un nœud à la fois, en commençant au nœud racine et se terminant par un nœud terminal. Et à chaque nœud, seules deux possibilités sont possibles (gauche à droite), il existe donc certaines relations variables que les arbres de décision ne peuvent tout simplement pas apprendre.
Pratiquement limité à la classification
Les arbres de décision fonctionnent mieux lorsqu'ils sont formés pour attribuer un point de données à une classe - de préférence l'une des rares classes possibles. Je ne pense pas avoir jamais réussi à utiliser un arbre de décision en mode de régression (c.-à-d. Une sortie continue, telle que le prix ou le revenu escompté à vie). Ce n'est pas une limitation formelle ou inhérente, mais pratique. La plupart du temps, les arbres de décision sont utilisés pour prédire des facteurs ou des résultats discrets.
Résolution médiocre avec variables d'espérance continue
Encore une fois, en principe, il est correct d’avoir des variables indépendantes telles que "temps de téléchargement" ou "nombre de jours depuis le dernier achat en ligne" - modifiez simplement votre critère de division en variance Expérience Les arbres de décision fonctionnent rarement bien dans ce cas. Les exceptions sont des cas tels que "l'âge de l'étudiant" qui semble continu, mais dans la pratique, la plage de valeurs est assez petite (en particulier si elles sont rapportées sous forme d'entiers).
la source
Il y a de bonnes réponses ici, mais je suis surpris qu'une chose n'ait pas été soulignée. CART ne fait aucune hypothèse de distribution sur les données, en particulier la variable de réponse. En revanche, la régression OLS (pour les variables continues) et la régression logistique (pour certaines variables de réponse catégorique), par exemple, ne font des hypothèses fortes; en particulier, la régression OLS suppose que la réponse est distribuée normalement de manière conditionnelle, et la logistique suppose que la réponse est binomiale ou multinomiale.
L'absence de telles hypothèses chez CART est une arme à double tranchant. Lorsque ces hypothèses ne sont pas justifiées, cela donne à la méthode un avantage relatif. D'autre part, lorsque ces hypothèses sont valables, il est possible d'extraire plus d'informations des données en tenant compte de ces faits. Autrement dit, les méthodes de régression standard peuvent être plus informatives que CART lorsque les hypothèses sont vraies.
la source