Biais de sélection dans les arbres

8

Dans Applied Predictive Modeling de Kuhn et Johnson, les auteurs écrivent:

Enfin, ces arbres souffrent d'un biais de sélection: les prédicteurs avec un nombre plus élevé de valeurs distinctes sont favorisés par rapport aux prédicteurs plus granulaires (Loh et Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh et Shih (1997) ont remarqué que «le danger survient lorsqu'un ensemble de données se compose d'un mélange de variables informatives et de bruit, et les variables de bruit ont beaucoup plus de divisions que les variables informatives. Il y a alors une forte probabilité que les variables de bruit soient choisies pour diviser les nœuds supérieurs de l'arbre. L'élagage produira soit un arbre avec une structure trompeuse, soit aucun arbre. »

Kuhn, Max; Johnson, Kjell (2013-05-17). Modélisation prédictive appliquée (emplacements Kindle 5241-5247). Springer New York. Édition Kindle.

Ils décrivent ensuite des recherches sur la construction d'arbres impartiaux. Par exemple le modèle GUIDE de Loh.

En restant aussi strictement que possible dans le cadre de CART, je me demande si je peux faire quelque chose pour minimiser ce biais de sélection? Par exemple, le regroupement / regroupement de prédicteurs à cardinalité élevée est une stratégie. Mais dans quelle mesure doit-on faire le regroupement? Si j'ai un prédicteur à 30 niveaux, dois-je regrouper à 10 niveaux? 15? 5?

dal233
la source
Voici une question et une réponse connexes .
dal233
1
Gardez à l'esprit que CART n'est pas seulement biaisé par rapport à des facteurs à plusieurs niveaux, mais aussi à des variables potentiellement continues si la taille de votre échantillon est importante. Y a-t-il une raison particulière pour laquelle vous souhaitez rester dans le cadre CART? En plus de GUIDE, les arbres d'inférence conditionnelle sont une autre option pour éviter le biais de sélection.
dmartin
Mon impression est qu'il y a plus de code standard écrit pour CART et en plus, je veux que les choses soient simples à expliquer.
dal233
Quand j'ai dit "du code standard écrit pour CART" - je voulais aussi dire tout l'écosystème autour de CART. Comme par exemple rpart.plot.
dal233
? ctree et vous verrez que le package de fête a plusieurs des mêmes fonctionnalités que rpart. Les données manquantes sont également gérées via des divisions de substitution
dmartin

Réponses:

2

Sur la base de votre commentaire, j'irais avec un cadre d'inférence conditionnelle. Le code est facilement disponible dans R en utilisant la fonction ctree dans le package party. Il a une sélection de variable non biaisée, et bien que l'algorithme sous-jacent quand et comment faire des séparations soit différent de CART, la logique est essentiellement la même. Un autre avantage souligné par les auteurs (voir l'article ici ) est que vous n'avez pas à vous soucier autant de l'élagage de l'arbre pour éviter le sur-ajustement. L'algorithme s'en occupe en fait en utilisant des tests de permutation pour déterminer si un fractionnement est "statistiquement significatif" ou non.

dmartin
la source