J'ai obtenu d'autres publications que l'on ne peut pas attribuer `` importance '' ou `` signification '' aux variables prédictives qui entrent dans un modèle de lasso parce que le calcul des valeurs p ou des écarts-types de ces variables est toujours un travail en cours.
Sous ce raisonnement, est-il exact d'affirmer que l'on NE PEUT PAS dire que les variables qui ont été EXCLUES du modèle du lasso sont «non pertinentes» ou «insignifiantes»?
Dans l'affirmative, que puis-je réellement affirmer sur les variables qui sont soit exclues soit incluses dans un modèle de lasso? Dans mon cas spécifique, j'ai sélectionné le paramètre de réglage lambda en répétant la validation croisée 10 fois 100 fois afin de réduire la randonmess et de faire la moyenne des courbes d'erreur.
UPDATE1: J'ai suivi une suggestion ci-dessous et relancé le lasso en utilisant des échantillons de bootstrap. Je l'ai essayé avec 100 échantillons (ce montant était ce que mon ordinateur pouvait gérer du jour au lendemain) et certains modèles ont émergé. 2 de mes 41 variables sont entrées dans le modèle plus de 95% des fois, 3 variables plus de 90% et 5 variables plus de 85%. Ces 5 variables sont parmi les 9 qui sont entrées dans le modèle lorsque je l'avais exécuté avec l'échantillon d'origine et étaient celles qui présentaient alors les coefficients les plus élevés. Si je lance le lasso avec, disons, 1000 échantillons de bootstrap et que ces modèles sont conservés, quelle serait la meilleure façon de présenter mes résultats?
Est-ce que 1000 échantillons de bootstrap sonnent suffisamment? (Ma taille d'échantillon est de 116)
Dois-je énumérer toutes les variables et à quelle fréquence elles entrent dans le modèle, puis faire valoir que celles qui entrent plus fréquemment sont plus susceptibles d'être significatives?
Est-ce que je peux aller aussi loin avec mes réclamations? Parce que c'est un travail en cours (voir ci-dessus), je ne peux pas utiliser une valeur de coupure, non?
UPDATE2: Suite à une suggestion ci-dessous, j'ai calculé ce qui suit: en moyenne, 78% des variables du modèle d'origine sont entrées dans les modèles générés pour les 100 échantillons de bootstrap. En revanche, seulement 41% pour l'inverse. Cela est dû en grande partie au fait que les modèles générés pour les échantillons de bootstrap avaient tendance à inclure beaucoup plus de variables (17 en moyenne) que le modèle d'origine (9).
UPDATE3: Si vous pouviez m'aider à interpréter les résultats que j'ai obtenus du bootstrap et de la simulation de Monte Carlo, veuillez jeter un œil à cet autre article.