Je voudrais créer une forêt aléatoire en utilisant le processus suivant:
- Construisez un arbre sur un échantillon aléatoire des données et des fonctionnalités en utilisant le gain d'informations pour déterminer les divisions
- Terminer un nœud feuille s'il dépasse une profondeur prédéfinie OU toute scission entraînerait un nombre de feuilles inférieur à un minimum prédéfini
- Plutôt que d'attribuer une étiquette de classe pour chaque arbre, attribuez la proportion de classes dans le nœud feuille
- Arrêtez de construire des arbres après la construction d'un nombre prédéfini
Cela va à l'encontre du processus traditionnel de la forêt aléatoire de deux manières. Premièrement, il utilise des arbres élagués qui attribuent des proportions plutôt que des étiquettes de classe. Et deuxièmement, le critère d'arrêt est un nombre prédéterminé d'arbres plutôt qu'une estimation d'erreur hors du sac.
Ma question est la suivante:
Pour le processus ci-dessus qui génère N arbres, puis-je ajuster un modèle en utilisant la régression logistique avec la sélection LASSO? Quelqu'un a-t-il de l'expérience en ajustant un classificateur de forêt aléatoire et en post-traitement avec LASSO logistique?
Le cadre ISLE mentionne l'utilisation de LASSO comme étape de post-traitement pour les problèmes de régression mais pas les problèmes de classification. De plus, je n'obtiens aucun résultat utile lors de la recherche sur le "lasso de forêt aléatoire".
la source
Réponses:
Cela ressemble un peu à un boost d'arbre dégradé. L'idée du boosting est de trouver la meilleure combinaison linéaire d'une classe de modèles. Si nous ajustons un arbre aux données, nous essayons de trouver l'arbre qui explique le mieux la variable de résultat. Si nous utilisons plutôt le boosting, nous essayons de trouver la meilleure combinaison linéaire d'arbres.
Cependant, en utilisant le boost, nous sommes un peu plus efficaces car nous n'avons pas de collection d'arbres aléatoires, mais nous essayons de construire de nouveaux arbres qui fonctionnent sur les exemples que nous ne pouvons pas encore bien prédire.
Pour en savoir plus à ce sujet, je suggère de lire le chapitre 10 des éléments de l'apprentissage statistique: http://statweb.stanford.edu/~tibs/ElemStatLearn/
Bien que ce ne soit pas une réponse complète à votre question, j'espère que cela vous aidera.
la source