Dans Applied Predictive Modeling de Kuhn et Johnson, les auteurs écrivent:
Enfin, ces arbres souffrent d'un biais de sélection: les prédicteurs avec un nombre plus élevé de valeurs distinctes sont favorisés par rapport aux prédicteurs plus granulaires (Loh et Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh et Shih (1997) ont remarqué que «le danger survient lorsqu'un ensemble de données se compose d'un mélange de variables informatives et de bruit, et les variables de bruit ont beaucoup plus de divisions que les variables informatives. Il y a alors une forte probabilité que les variables de bruit soient choisies pour diviser les nœuds supérieurs de l'arbre. L'élagage produira soit un arbre avec une structure trompeuse, soit aucun arbre. »
Kuhn, Max; Johnson, Kjell (2013-05-17). Modélisation prédictive appliquée (emplacements Kindle 5241-5247). Springer New York. Édition Kindle.
Ils décrivent ensuite des recherches sur la construction d'arbres impartiaux. Par exemple le modèle GUIDE de Loh.
En restant aussi strictement que possible dans le cadre de CART, je me demande si je peux faire quelque chose pour minimiser ce biais de sélection? Par exemple, le regroupement / regroupement de prédicteurs à cardinalité élevée est une stratégie. Mais dans quelle mesure doit-on faire le regroupement? Si j'ai un prédicteur à 30 niveaux, dois-je regrouper à 10 niveaux? 15? 5?
Réponses:
Sur la base de votre commentaire, j'irais avec un cadre d'inférence conditionnelle. Le code est facilement disponible dans R en utilisant la fonction ctree dans le package party. Il a une sélection de variable non biaisée, et bien que l'algorithme sous-jacent quand et comment faire des séparations soit différent de CART, la logique est essentiellement la même. Un autre avantage souligné par les auteurs (voir l'article ici ) est que vous n'avez pas à vous soucier autant de l'élagage de l'arbre pour éviter le sur-ajustement. L'algorithme s'en occupe en fait en utilisant des tests de permutation pour déterminer si un fractionnement est "statistiquement significatif" ou non.
la source