Comment interpréter le tracé cv.glmnet ()?

J'ai effectué un lasso, puis laissé une validation croisée

cv<-cv.glmnet(df, df$Price, nfolds = 1500)

Lorsque je trace un cv, j'obtiens ce qui suit:

J'ai aussi remarqué que j'obtenais 2 lambdas différents: lambda.minetlambda.1se

Quelle est la différence entre ces lambdas?
Que puis-je comprendre de l'intrigue ci-dessus en général (à quoi servent ces intervalles de confiance, quelles sont les deux lignes pointillées, etc.)?

Si je change pour nfolds=10effectuer une validation 10 fois, j'obtiens lambda.1sedes coefficients différents et différents pour cette lambda. Sur la base de quels critères puis-je choisir le meilleur pour moi?

r cross-validation interpretation lasso Jasmin
la source

Avez-vous essayé de regarder ici: web.stanford.edu/~hastie/glmnet/glmnet_alpha.html

ilanman

@ilanman C'est super, merci! Mais quelle lambda dois-je préférer? Mon intuition dirait lambda.min mais je vois que lambda.1se est généralement suggéré ..

Jasmine

Réponses:

Il ne s'agit pas vraiment de statistiques, il suffit de lire la documentation.

Les deux valeurs différentes de reflètent deux choix communs pour . Le est celui qui minimise la perte de CV hors échantillon. Le est celui qui est la plus grande valeur dans 1 erreur standard de . Une ligne de raisonnement suggère d'utiliser car il se contre le sur-ajustement en sélectionnant une valeur supérieure à la valeur min. Le meilleur choix dépend du contexte. $\lambda$ $\lambda$ $\lambda_{\min}$ $\lambda_{1se}$ $\lambda$ $\lambda_{\min}$ $\lambda_{1se}$ $\lambda$
Les intervalles de confiance représentent des estimations d'erreur pour la métrique de perte (points rouges). Ils sont calculés à l'aide de CV. Les lignes verticales indiquent les emplacements de et . Les nombres en haut sont le nombre d'estimations de coefficients non nuls. $\lambda_{\min}$ $\lambda_{1se}$

Sycorax dit de réintégrer Monica
la source