Comment combiner les résultats de la régression logistique et de la forêt aléatoire?

12

Je suis nouveau dans l'apprentissage automatique. J'ai appliqué une régression logistique et une forêt aléatoire sur un même ensemble de données. J'obtiens donc une importance variable (coefficient absolu pour la régression logistique et importance variable pour la forêt aléatoire). Je pense à combiner les deux pour obtenir une importance variable finale. Quelqu'un peut-il partager son expérience? J'ai vérifié l'ensachage, le boosting, la modélisation d'ensemble, mais ce n'est pas ce dont j'ai besoin. Ils consistent davantage à combiner des informations pour le même modèle sur plusieurs répliques. Ce que je recherche, c'est de combiner le résultat de plusieurs modèles.

user1946504
la source
5
La modélisation d'ensemble peut également combiner des modèles. Regardez par exemple le vote majoritaire. Voir aussi, empilement.
pat
4
En fait, l'utilisation de la taille des coefficients n'est pas un bon moyen de déterminer «l'importance variable» dans la régression logistique. Même si vous regardez des coefficients standardisés, ce n'est pas une bonne méthode. Pourquoi? N'oubliez pas que les coefficients ne sont que des estimations et qu'une erreur leur est associée. Choisir des coefficients par taille signifie que vous choisissez ceux pour lesquels vous avez surestimé la taille du coefficient et supprimez ceux pour lesquels vous avez sous-estimé la taille du coefficient.
user765195

Réponses:

12

Cela dépend probablement de la raison pour laquelle vous souhaitez utiliser des importances variables. Doit-il être utilisé comme critère de sélection d'entités pour un troisième modèle de classification? Dans ce cas, vous pouvez essayer de calculer une moyenne pondérée des importances variables (peut-être après la normalisation de chaque vecteur d'importance variable individuelle à la longueur unitaire) pour diverses valeurs et le poids moyen, puis sélectionner la valeur qui donne le meilleur score de validation croisée pour la finale modèle.

En ce qui concerne la combinaison des résultats du modèle de régression logistique et du modèle de forêt aléatoire (sans tenir compte des importances variables), le billet de blog suivant est très instructif et démontre qu'une seule moyenne de la production est une méthode d'ensemble simple mais très efficace pour les modèles de régression.

ogrisel
la source
1
Merci pour votre réponse. Le blog que vous avez mentionné est une étude vraiment intéressante. Je pense que j'ai eu l'idée. Le seul problème est sa formule d'entropie croisée. Cela semble différent de celui que j'ai trouvé en ligne. Son utilisation: cross.entropy <- fonction (cible, prédite) {prédite = pmax (1e-10, pmin (1-1e-10, prédite)) - somme (cible * log (prédite) + (1 - cible) * log (1 - prédit))}
user1946504
2
et quand j'ai appliqué la même idée à mon propre ensemble de données, j'ai utilisé l'erreur de mauvaise classification comme critère, l'intrigue n'a rien de similaire. La forêt aléatoire s'avère bien meilleure que la régression logistique. l'erreur de classification erronée de RF est de 0,2, pour LR est de 0,4. Dans le même temps, AUC pour RF est de 0,8, pour LR est de 0,73.
user1946504
5

(Commentant la réponse et les commentaires ci-dessus)

Merci d'avoir lu le blog!

La fonction d'erreur d'entropie croisée a un peu de triche, tronquant les valeurs prédites à [1e-10, 1-1e-10] comme un moyen bon marché et facile de prévenir les erreurs dans les fonctions de journal. Sinon, c'est la formule standard.

Pour l'ensemble de données, il est très possible d'avoir des ensembles de données où une forêt aléatoire est de loin supérieure à un journal. reg. et le journal. reg. n'ajoute rien à l'ensemble. Assurez-vous, bien sûr, que vous utilisez des données d'exclusion - une forêt aléatoire aura presque toujours des résultats supérieurs sur les données d'entraînement en raison de paramètres beaucoup plus efficaces.

OverKAnalytics
la source