Comment interpréter le tracé cv.glmnet ()?

8

J'ai effectué un lasso, puis laissé une validation croisée

cv<-cv.glmnet(df, df$Price, nfolds = 1500) 

Lorsque je trace un cv, j'obtiens ce qui suit: entrez la description de l'image ici

J'ai aussi remarqué que j'obtenais 2 lambdas différents: lambda.minetlambda.1se

  • Quelle est la différence entre ces lambdas?
  • Que puis-je comprendre de l'intrigue ci-dessus en général (à quoi servent ces intervalles de confiance, quelles sont les deux lignes pointillées, etc.)?

Si je change pour nfolds=10effectuer une validation 10 fois, j'obtiens lambda.1sedes coefficients différents et différents pour cette lambda. Sur la base de quels critères puis-je choisir le meilleur pour moi?

Jasmin
la source
2
Avez-vous essayé de regarder ici: web.stanford.edu/~hastie/glmnet/glmnet_alpha.html
ilanman
@ilanman C'est super, merci! Mais quelle lambda dois-je préférer? Mon intuition dirait lambda.min mais je vois que lambda.1se est généralement suggéré ..
Jasmine

Réponses:

16

Il ne s'agit pas vraiment de statistiques, il suffit de lire la documentation.

  • Les deux valeurs différentes de reflètent deux choix communs pour . Le est celui qui minimise la perte de CV hors échantillon. Le est celui qui est la plus grande valeur dans 1 erreur standard de . Une ligne de raisonnement suggère d'utiliser car il se contre le sur-ajustement en sélectionnant une valeur supérieure à la valeur min. Le meilleur choix dépend du contexte.λλλminλ1seλλminλ1seλ
  • Les intervalles de confiance représentent des estimations d'erreur pour la métrique de perte (points rouges). Ils sont calculés à l'aide de CV. Les lignes verticales indiquent les emplacements de et . Les nombres en haut sont le nombre d'estimations de coefficients non nuls.λminλ1se
Sycorax dit de réintégrer Monica
la source