Question: Quels sont les avantages / inconvénients d'utiliser l'un avant l'autre pour la sélection des variables?
Supposons que j'ai la probabilité: où je peux mettre l' un des prieurs: ou: w i ∼ π δ 0 + ( 1 - π ) N ( 0 , 100 )
J'ai mis pour souligner que la plupart des poids sont nuls et un gamma avant pour choisir le paramètre de «régularisation».λ
Cependant, mon professeur continue d'insister sur le fait que la version au lasso «rétrécit» les coefficients et ne fait pas en fait une sélection appropriée des variables, c'est-à-dire qu'il y a un rétrécissement même des paramètres pertinents.
Personnellement, je trouve la mise en œuvre de la version Lasso plus facile car j'utilise des Bayes variationnels. En fait, le document d' apprentissage bayésien clairsemé qui met effectivement un a priori de donne des solutions encore plus rares.
la source
Réponses:
Ces deux méthodes (LASSO vs spike-and-slab) peuvent être interprétées comme des problèmes d'estimation bayésienne où vous spécifiez différents paramètres. L'une des principales différences est que la méthode LASSO ne met aucune masse ponctuelle à zéro pour l'a priori (c'est-à-dire que les paramètres sont presque sûrement non nuls a priori), tandis que la pointe et la dalle mettent une masse ponctuelle substantielle sur zéro.
À mon humble avis, le principal avantage de la méthode des pointes et des dalles est qu'elle est bien adaptée aux problèmes où le nombre de paramètres est supérieur au nombre de points de données et que vous souhaitez éliminer complètement un nombre important de paramètres du modèle. Parce que cette méthode met une grande masse ponctuelle à zéro dans le précédent, elle produira des estimations postérieures qui tendent à n'impliquer qu'une faible proportion des paramètres, en évitant, espérons-le, un sur-ajustement des données.
Lorsque votre professeur vous dit que le premier n'effectue pas de méthode de sélection des variables, il veut probablement dire ceci. Sous LASSO, chacun des paramètres est presque sûrement non nul a priori (c'est-à-dire qu'ils sont tous dans le modèle). Étant donné que la probabilité est également non nulle sur le support des paramètres, cela signifie également que chacun est presque sûrement non nul a priori (c'est-à-dire qu'ils sont tous dans le modèle). Maintenant, vous pouvez compléter cela avec un test d'hypothèse et exclure les paramètres du modèle de cette façon, mais ce serait un test supplémentaire imposé au-dessus du modèle bayésien.
Les résultats de l'estimation bayésienne refléteront une contribution des données et une contribution de l'a priori. Naturellement, une distribution a priori plus concentrée autour de zéro (comme le pic et la dalle) "réduira" en effet les estimateurs de paramètres résultants, par rapport à un a priori moins concentré (comme le LASSO). Bien entendu, ce «rétrécissement» n'est que l'effet des informations préalables que vous avez spécifiées. La forme de l'a priori LASSO signifie qu'il rétrécit toutes les estimations de paramètres vers la moyenne, par rapport à un a priori plus plat.
la source