CHAID vs CRT (ou CART)

23

J'exécute une classification d'arbre de décision en utilisant SPSS sur un ensemble de données avec environ 20 prédicteurs (catégorique avec quelques catégories). CHAID (Détection automatique d'interaction chi carré) et CRT / CART (Arbres de classification et de régression) me donnent des arbres différents. Quelqu'un peut-il expliquer les mérites relatifs de CHAID vs CRT? Quelles sont les implications de l'utilisation d'une méthode par rapport à l'autre?

Placidia
la source

Réponses:

23

Je vais énumérer quelques propriétés et vous donner plus tard mon évaluation de sa valeur:

  • CHAID utilise les divisions multi-voies par défaut (les divisions multi-voies signifient que le nœud actuel est divisé en plus de deux nœuds). Cela peut être souhaité ou non (cela peut conduire à de meilleurs segments ou à une interprétation plus facile). Ce qu'il fait, cependant, est de réduire la taille de l'échantillon dans les nœuds et de conduire ainsi à des arbres moins profonds. Lorsqu'il est utilisé à des fins de segmentation, cela peut se retourner rapidement car CHAID a besoin d'une grande taille d'échantillon pour bien fonctionner. CART effectue des divisions binaires (chaque nœud est divisé en deux nœuds filles) par défaut.
  • CHAID est destiné à fonctionner avec des cibles catégorielles / discrétisées (XAID était pour la régression mais peut-être qu'elles ont été fusionnées depuis). CART peut certainement effectuer une régression et une classification.
  • CHAID utilise une idée de pré-élagage . Un nœud n'est divisé que si un critère de signification est rempli. Cela rejoint le problème ci-dessus d'avoir besoin de grandes tailles d'échantillon, car le test du chi carré n'a que peu de puissance dans les petits échantillons (ce qui est effectivement encore réduit par une correction de Bonferroni pour les tests multiples). CART, d'autre part, fait pousser un grand arbre, puis post-élague l'arbre en une version plus petite.
  • Ainsi, CHAID essaie d' empêcher le sur-ajustement dès le début (seule la division est associée de manière significative), tandis que CART peut facilement sur-adapter à moins que l'arbre ne soit élagué. D'un autre côté, cela permet à CART de mieux performer que CHAID dans et hors échantillon (pour une combinaison de paramètres de réglage donnée).
  • La différence la plus importante à mon avis est que la sélection des variables et des points de partage dans CHAID est moins fortement confondue que dans CART . Ceci est largement hors de propos lorsque les arbres sont utilisés pour la prédiction mais est un problème important lorsque les arbres sont utilisés pour l'interprétation: un arbre qui a ces deux parties de l'algorithme très confondues est dit "biaisé dans la sélection des variables" (un nom malheureux) . Cela signifie que la sélection de variables fractionnées préfère les variables avec de nombreuses divisions possibles (par exemple, les prédicteurs métriques). CART est très "biaisé" en ce sens, CHAID pas tellement.
  • Avec les divisions de substitution CART sait comment gérer les valeurs manquantes (les divisions de substitution signifient qu'avec les valeurs manquantes (NA) pour les variables prédictives, l'algorithme utilise d'autres variables prédictives qui ne sont pas aussi "bonnes" que la variable de division principale mais imitent les divisions produites par la variable primaire séparateur). CHAID n'a rien de tel.

Donc, selon ce dont vous avez besoin, je suggère d'utiliser CHAID si l'échantillon est d'une certaine taille et que les aspects d'interprétation sont plus importants. De plus, si vous souhaitez des fentes à plusieurs voies ou des arbres plus petits, CHAID est préférable. CART, d'autre part, est une machine de prédiction qui fonctionne bien, donc si la prédiction est votre objectif, je choisirais CART.

Momo
la source
1
(+1). Belle vue d'ensemble. Pourriez-vous expliquer ce que sont les «divisions multi-voies» et les «divisions de substitution»? Les divisions multi-voies sont-elles si les divisions ne sont pas dichotomiques?
COOLSerdash
1
@Momo: Merci beaucoup pour la réponse mise à jour. En ce qui concerne les divisions multi-voies, j'ai trouvé la déclaration intéressante suivante de Hastie et al. (2013) Les éléments de l'apprentissage statistique : "[...] Bien que ce [fractionnement multi-voies] puisse parfois être utile, ce n'est pas une bonne stratégie générale. [...] Puisque les divisions multi-voies peuvent être obtenues par une série de binaires scissions, ces dernières sont préférées. " Je me demande si c'est vraiment aussi précis qu'ils le disent (je ne suis pas très expérimenté en apprentissage automatique) mais d'un autre côté, leur livre est considéré comme une référence.
COOLSerdash
Oui, une série de divisions binaires peut être identique à des divisions multi-voies. Ils peuvent également être différents. J'ai tendance à être d'accord avec la déclaration. Une autre chose à noter est que la recherche de points de division avec une recherche exhaustive est algorithmiquement plus simple et plus rapide pour les divisions binaires d'un nœud donné.
Momo
Réponse très complète. J'ai utilisé CHAID dans une recherche avec plus de 100 000 bases de données. A ce niveau, la classification est très précise mais je recommande d'essayer plusieurs fois avec différents nombres de partitions et les niveaux moins profonds de l'arborescence (le logiciel SPSS permet de déterminer ces paramètres précédemment). C'est parce que CHAID génère des arbres de classifications avec plusieurs groupes (multisplit) et bien pire si la base de données est grande. L'arbre final pourrait être énorme. Enfin, n'oubliez pas d'utiliser le "contrôle interne" de la division des échantillons de la base de données. Voir aussi le manuel des arbres de classification SPSS disponible sur goo
user35523
Et QUEST?
Madhu Sareen
8

Toutes les méthodes à arbre unique impliquent un nombre stupéfiant de comparaisons multiples qui apportent une grande instabilité au résultat. C'est pourquoi, pour obtenir une discrimination prédictive satisfaisante, une certaine forme de moyennage des arbres (ensachage, renforcement, forêts aléatoires) est nécessaire (sauf que vous perdez l'avantage des arbres - interprétabilité). La simplicité des arbres isolés est largement une illusion. Ils sont simples parce qu'ils ont tort en ce sens que la formation de l'arbre à plusieurs grands sous-ensembles de données révélera un grand désaccord entre les structures des arbres.

Je n'ai pas examiné de méthodologie CHAID récente, mais CHAID dans son incarnation originale était un excellent exercice de surinterprétation des données.

Frank Harrell
la source