Je suis nouveau dans l'apprentissage automatique. J'ai appliqué une régression logistique et une forêt aléatoire sur un même ensemble de données. J'obtiens donc une importance variable (coefficient absolu pour la régression logistique et importance variable pour la forêt aléatoire). Je pense à combiner les deux pour obtenir une importance variable finale. Quelqu'un peut-il partager son expérience? J'ai vérifié l'ensachage, le boosting, la modélisation d'ensemble, mais ce n'est pas ce dont j'ai besoin. Ils consistent davantage à combiner des informations pour le même modèle sur plusieurs répliques. Ce que je recherche, c'est de combiner le résultat de plusieurs modèles.
machine-learning
logistic
random-forest
user1946504
la source
la source
Réponses:
Cela dépend probablement de la raison pour laquelle vous souhaitez utiliser des importances variables. Doit-il être utilisé comme critère de sélection d'entités pour un troisième modèle de classification? Dans ce cas, vous pouvez essayer de calculer une moyenne pondérée des importances variables (peut-être après la normalisation de chaque vecteur d'importance variable individuelle à la longueur unitaire) pour diverses valeurs et le poids moyen, puis sélectionner la valeur qui donne le meilleur score de validation croisée pour la finale modèle.
En ce qui concerne la combinaison des résultats du modèle de régression logistique et du modèle de forêt aléatoire (sans tenir compte des importances variables), le billet de blog suivant est très instructif et démontre qu'une seule moyenne de la production est une méthode d'ensemble simple mais très efficace pour les modèles de régression.
la source
(Commentant la réponse et les commentaires ci-dessus)
Merci d'avoir lu le blog!
La fonction d'erreur d'entropie croisée a un peu de triche, tronquant les valeurs prédites à [1e-10, 1-1e-10] comme un moyen bon marché et facile de prévenir les erreurs dans les fonctions de journal. Sinon, c'est la formule standard.
Pour l'ensemble de données, il est très possible d'avoir des ensembles de données où une forêt aléatoire est de loin supérieure à un journal. reg. et le journal. reg. n'ajoute rien à l'ensemble. Assurez-vous, bien sûr, que vous utilisez des données d'exclusion - une forêt aléatoire aura presque toujours des résultats supérieurs sur les données d'entraînement en raison de paramètres beaucoup plus efficaces.
la source