J'ai une question sur la sélection des modèles et les performances des modèles en régression logistique. J'ai trois modèles basés sur trois hypothèses différentes. Les deux premiers modèles (nommons-les z et x) n'ont qu'une seule variable explicative dans chaque modèle, et le troisième (nommons-le w) est plus compliqué. J'utilise AIC pour la sélection des variables pour le modèle w, puis AIC pour comparer lequel des trois modèles qui explique le mieux la variable dépendante. J'ai trouvé que le modèle w a le plus faible AIC et je veux maintenant faire des statistiques de performance sur ce modèle pour avoir une idée du pouvoir prédictif du modèle. Puisque tout ce que je sais, c'est que ce modèle est meilleur que les deux autres mais pas à quel point il est bon.
Depuis que j'ai utilisé toutes les données pour apprendre le modèle (pour pouvoir comparer les trois modèles), comment dois-je procéder avec les performances du modèle? D'après ce que j'ai rassemblé, je ne peux pas simplement faire une validation croisée k-fold sur le modèle final que j'ai obtenu de la sélection de modèle en utilisant AIC, mais je dois commencer par le début avec toutes les variables explicatives incluses, est-ce correct? Je pense que c'est le modèle final que j'ai choisi avec AIC que je veux savoir comment il fonctionne, mais je me rends compte que je me suis entraîné sur toutes les données afin que le modèle soit biaisé. Donc, si je commence par le début avec toutes les variables explicatives dans tous les plis, j'obtiendrai différents modèles finaux pour certains plis, puis-je simplement choisir le modèle du pli qui a donné le meilleur pouvoir prédictif et l'appliquer à l'ensemble de données complet pour comparer AIC avec les deux autres modèles (z et x)? Ou comment ça marche?
La deuxième partie de ma question est une question de base sur la sur-paramétrisation. J'ai 156 points de données, 52 est 1, le reste est 0. J'ai 14 variables explicatives à choisir pour le modèle w, je me rends compte que je ne peux pas tout inclure en raison de la sur-paramétrage, j'ai lu que vous ne devriez utiliser que 10% du groupe de la variable dépendante avec le moins d'observations qui serait seulement 5 pour moi. J'essaie de répondre à une question en écologie, est-ce correct de sélectionner les variables de départ qui, je pense, expliquent le mieux la dépendance simplement en fonction de l'écologie? Ou comment choisir les variables explicatives de départ? Ne semble pas juste d'exclure complètement certaines variables.
J'ai donc vraiment trois questions:
- Serait-il possible de tester les performances sur un modèle formé sur l'ensemble de données complet avec validation croisée?
- Sinon, comment choisir le modèle final lors de la validation croisée?
- Comment choisir les variables de départ pour que je veuille sur-paramétrer?
Désolé pour mes questions en désordre et mon ignorance. Je sais que des questions similaires ont été posées, mais je me sens toujours un peu confus. Appréciez toutes vos pensées et suggestions.
Pour répondre "Serait-il possible de tester les performances sur un modèle formé sur l'ensemble de données complet avec validation croisée?" NON, je ne pense pas que ce soit OK. Vous devez adapter les 3 modèles au même sous-ensemble de votre ensemble de données. Effectuez ensuite la validation croisée pour voir laquelle est la meilleure.
la source
Je crois que non. Une meilleure méthode serait peut-être d'évaluer chacun des trois modèles en utilisant une validation croisée répétée. Étant donné que vous avez choisi vos fonctionnalités sur la base de connaissances antérieures, vous n'avez pas à vous soucier de la sélection des fonctionnalités. Cette méthode vous permet d'évaluer les performances du modèle.
Une fois que vous avez évalué les performances de votre modèle en utilisant la validation croisée répétée, vous pouvez ensuite former le modèle final en utilisant toutes les données disponibles.
Si je comprends bien: comme suggéré par un contributeur ci-dessus, vous pouvez soit ajouter vos fonctionnalités en fonction des connaissances préalables de la région, soit vous devez effectuer la sélection des fonctionnalités dans la validation croisée pour éviter le surapprentissage. Cette même procédure de sélection des fonctionnalités serait ensuite appliquée à toutes les données lors de la formation du modèle final. Vous ne pouvez pas utiliser ce modèle pour signaler les performances généralisées du modèle, cela doit provenir de l'estimation de validation croisée.
la source