Dans quelle mesure est-il défendable de choisir

11

Lorsque je détermine mon lambda par validation croisée, tous les coefficients deviennent nuls. Mais j'ai quelques indices dans la littérature que certains des prédicteurs devraient définitivement affecter le résultat. Est-ce une foutaise de choisir arbitrairement lambda pour qu'il y ait autant de parcimonie qu'on le souhaite?

Je veux sélectionner les 10 premiers prédicteurs sur 135 pour un modèle cox et les tailles d'effet sont malheureusement petites.

miura
la source
6
Il semble que vous devriez utiliser un préalable informatif, car vous disposez d'informations non basées sur des données.
probabilités du
Au fond, je pense que ce serait correct, malheureusement je n'ai absolument pas les prouesses statistiques pour savoir maintenant par où commencer.
miura
1
Vous semblez confondre deux choses différentes: (1) Si la littérature vous dit d'utiliser des prédicteurs spécifiques, incluez-les dans tous les modèles. (2) Au lieu de cela, vous semblez réinterpréter cela comme indiquant que vous devez sélectionner un certain nombre parmi de nombreux prédicteurs, qu'ils incluent ou non ceux spécifiques mentionnés dans la littérature. Pourriez-vous clarifier ce que vous essayez réellement d'accomplir?
whuber

Réponses:

4

p(βi)=λ2exp(λ|βi|),
λ
Néstor
la source
3

Il existe une bonne façon d'effectuer LASSO mais utilisez un nombre fixe de prédicteurs. C'est la régression du moindre angle (LAR ou LARS) décrite dans l'article d'Efron. Pendant la procédure itérative, il crée un certain nombre de modèles linéaires, chaque nouveau a un prédicteur de plus, vous pouvez donc en sélectionner un avec le nombre de prédicteurs souhaité.

l1l2

Alexey Zaytsev
la source
3
Bien que le LARS et le lasso soient étroitement liés, pour un nombre fixe de prédicteurs, ils peuvent même ne pas inclure les mêmes variables. On pourrait choisir une valeur de pénalité pour le lasso qui donne le nombre de prédicteurs souhaité, mais le choix dans aucun des cas ne sera unique! Le PO n'a donc pas encore fourni de procédure bien définie, ce qui fait partie du problème. Pour le LARS, il y a le bon avantage que les valeurs de pénalité donnant un certain nombre de prédicteurs forment un intervalle, donc choisir un point final (lequel?) Ou un point médian ou un autre critère est un peu plus facile.
cardinal
1
Oui, il est vrai que LARS et LASSO ne sont pas identiques, mais une simple modification de LARS suggérée par les auteurs dans l'article original peut être introduite pour obtenir des solutions LASSO en utilisant une technique basée sur LARS.
Alexey Zaytsev
Oui, Alexey, c'est vrai. Je suppose que mon commentaire tourne autour de la raison pour laquelle le passage à LARS en premier lieu. On pourrait généralement aussi facilement choisir une valeur du paramètre de pénalité pour le lasso qui donne le nombre souhaité de prédicteurs. Le principal point laissé en suspens est de savoir comment procéder pour faire une sélection unique et les conséquences que cela pourrait avoir dans le cas du PO. :)
cardinal
2

|S|=|{j:βj0}|β|S|2p|S|(p|S|) modèles , ce qui est beaucoup moins.

La théorie du lasso repose sur le fait que le paramètre de régularisation est suffisamment grand pour rendre le modèle sélectionné suffisamment clairsemé. Il se peut que vos 10 fonctionnalités soient trop nombreuses ou trop peu nombreuses, car il n'est pas trivial de transformer une borne inférieure sur en borne supérieure sur.λ | S |λλ|S|

Soit notre estimation basée sur les données pour , et mettons . Alors, peut-être que vous essayez de vous assurer que afin que vous ayez récupéré au moins les fonctionnalités pertinentes? Ou peut-être que vous essayez d'établir ce afin que vous sachiez que les fonctionnalités que vous avez trouvées valent toutes la peine? Dans ces cas, votre procédure serait plus justifiée si vous disposiez d'informations préalables sur les tailles relatives de . la ß * S ={jβ^βS* S SS*S*S^={j:β^j0}SS^S^SS

Notez également, vous pouvez laisser des coefficients unpenalized lors de l' exécution Lasso, par exemple, glmnet.

user795305
la source