J'utilise un modèle de régression avec Lasso et Ridge (pour prédire une variable de résultat discrète allant de 0 à 5). Avant d'exécuter le modèle, j'utilise la SelectKBest
méthode de scikit-learn
pour réduire l'ensemble de fonctionnalités de 250 à 25 . Sans sélection initiale des caractéristiques, Lasso et Ridge cèdent tous deux à des scores de précision inférieurs [ce qui pourrait être dû à la petite taille de l'échantillon, 600]. Notez également que certaines fonctionnalités sont corrélées.
Après avoir exécuté le modèle, j'observe que la précision de prédiction est presque la même avec Lasso et Ridge. Cependant, lorsque je vérifie les 10 premières fonctionnalités après les avoir classées en fonction de la valeur absolue des coefficients, je constate qu'il y a au plus 50% de chevauchement.
Autrement dit, étant donné que l'importance différente des caractéristiques a été attribuée par chaque méthode, je pourrais avoir une interprétation totalement différente basée sur le modèle que je choisis.
Normalement, les fonctionnalités représentent certains aspects du comportement des utilisateurs dans un site Web. Par conséquent, je veux expliquer les résultats en mettant en évidence les fonctionnalités (comportements des utilisateurs) avec une capacité prédictive plus forte par rapport aux fonctionnalités plus faibles (comportements des utilisateurs). Cependant, je ne sais pas comment avancer à ce stade. Comment dois-je aborder l'interprétation du modèle? Par exemple, devrait combiner les deux et mettre en évidence celui qui se chevauchent, ou devrais-je aller avec Lasso car il offre plus d'interprétabilité?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
Réponses:
La régression de crête encourage tous les coefficients à devenir petits. Le lasso encourage de nombreux / la plupart des coefficients [**] à devenir nuls et quelques-uns non nuls. Les deux réduiront la précision de l'ensemble d'entraînement, mais amélioreront la prédiction d'une certaine manière:
Vous pouvez obtenir différents choix de coefficients si vos données sont fortement corrélées. Ainsi, vous pourriez avoir 5 fonctionnalités qui sont corrélées:
[*] pour une définition de «choisir» signifiant: attribue un coefficient non nul, qui est toujours un peu ondulant à la main, car les coefficients de régression de crête auront tendance à être tous non nuls, mais par exemple certains pourraient être comme 1e-8 , et d'autres pourraient être par exemple 0,01
[**] nuance: comme le souligne Richard Hardy, pour certains cas d'utilisation, une valeur de peut être choisie, ce qui entraînera que tous les coefficients LASSO seront non nuls, mais avec un certain rétrécissementλ
la source