Arbre de décision ou régression logistique?

14

Je travaille sur un problème de classification. J'ai un ensemble de données contenant un nombre égal de variables catégorielles et de variables continues. Comment saurai-je quelle technique utiliser? entre un arbre de décision et une régression logistique?

Est-il juste de supposer que la régression logistique sera plus appropriée pour la variable continue et l'arbre de décision sera plus approprié pour la variable continue + catégorielle?

Arun
la source
Pouvez-vous ajouter plus de détails comme le nombre de lignes, le nombre de colonnes (aussi combien de catégories / continues)?
Nitesh
Salut @Nitesh, j'ai 32 variables d'entrée + 1 variable cible. Les enregistrements sont proches de 2,5 lakh pour les données d'entraînement et disent environ 1 lakh de données de test. Les données de test sont hors données.
Arun

Réponses:

22

Pour faire court : faites ce que @untitledprogrammer a dit, essayez les deux modèles et effectuez une validation croisée pour en choisir un.

Les arbres de décision (en fonction de l'implémentation, par exemple C4.5) et la régression logistique devraient être capables de gérer très bien les données continues et catégoriques. Pour la régression logistique, vous aurez envie de coder fictivement vos variables catégorielles .

Comme l'a mentionné @untitledprogrammer, il est difficile de savoir a priori quelle technique sera mieux basée simplement sur les types de fonctionnalités que vous avez, en continu ou autrement. Cela dépend vraiment de votre problème spécifique et des données dont vous disposez. (Voir le théorème du déjeuner gratuit )

Cependant, vous devez garder à l'esprit qu'un modèle de régression logistique recherche une seule limite de décision linéaire dans votre espace d'entités, tandis qu'un arbre de décision partitionne essentiellement votre espace d'entités en demi-espaces à l'aide de limites de décision linéaires alignées sur l' axe . L'effet net est que vous avez une frontière de décision non linéaire, éventuellement plus d'une.

C'est bien quand vos points de données ne sont pas facilement séparés par un seul hyperplan, mais d'un autre côté, les arbres de décisions sont si flexibles qu'ils peuvent être sujets à un sur-ajustement. Pour lutter contre cela, vous pouvez essayer l'élagage. La régression logistique a tendance à être moins sensible (mais pas immunisée!) Au sur-ajustement.

XyXy

Vous devez donc vous demander:

  • quel type de limite de décision est plus logique dans votre problème particulier?
  • comment voulez-vous équilibrer le biais et la variance?
  • y a-t-il des interactions entre mes fonctionnalités?

Bien sûr, c'est toujours une bonne idée d'essayer simplement les deux modèles et de faire une validation croisée. Cela vous aidera à déterminer lequel est le plus susceptible d'avoir une meilleure erreur de généralisation.

Victor Ma
la source
Exactement @Victor.
Untitledprogrammer
@Victor Merci beaucoup pour une explication très détaillée.
Arun
6

Essayez d'utiliser à la fois des arbres de régression et de décision. Comparez l'efficacité de chaque technique en utilisant une validation croisée 10 fois. Restez fidèle à celui avec une efficacité supérieure Il serait difficile de juger quelle méthode serait la mieux adaptée simplement en sachant que votre ensemble de données est continu et / ou catégorique.

programmeur sans titre
la source
1

Cela dépend vraiment de la structure de la distribution sous-jacente de vos données. Si vous avez de bonnes raisons de croire que les données se rapprochent d'une distribution de Bernoulli, la régression logistique multinomiale fonctionnera bien et vous donnera des résultats interprétables. Cependant, s'il existe des structures non linéaires dans la distribution sous-jacente, vous devriez sérieusement envisager une méthode non paramétrique.

Bien que vous puissiez utiliser un arbre de décision comme méthode non paramétrique, vous pouvez également envisager de générer une forêt aléatoire - cela génère essentiellement un grand nombre d'arbres de décision individuels à partir de sous-ensembles de données et la classification finale est le vote aggloméré de tous les arbres . Une forêt aléatoire vous donne une idée de la part que chaque variable prédictive contribue à la réponse.

Un autre facteur à garder à l'esprit est l'interprétabilité. Si vous essayez simplement de classer les données, vous ne vous souciez probablement pas des relations sous-jacentes entre les variables explicatives et les variables de réponse. Cependant, si vous êtes intéressé par l'interprétabilité, une régression logistique multinomiale est beaucoup plus facile à interpréter, les méthodes paramétriques en général, car elles font des hypothèses sur la distribution sous-jacente, vous indiquent des relations plus intuitivement interprétables.

Theresa Barton
la source
0

Pour utiliser l'arbre de décision, vous devez transformer la variable continue en catégorie.

Encore une chose, la régression logistique est généralement utilisée pour prédire le résultat en fonction de la probabilité.

Chong Zheng
la source