Confusion liée au filet élastique

10

Je lisais cet article sur le filet élastique. Ils disent qu'ils utilisent un filet élastique parce que si nous utilisons simplement le Lasso, il a tendance à sélectionner un seul prédicteur parmi les prédicteurs qui sont fortement corrélés. Mais n'est-ce pas ce que nous voulons. Je veux dire que cela nous sauve du problème de la multicolinéarité n'est-ce pas.

Des suggestions / clarifications?

user31820
la source

Réponses:

11

Supposons que deux prédicteurs aient un effet important sur la réponse mais soient fortement corrélés dans l'échantillon à partir duquel vous construisez votre modèle. Si vous en supprimez un du modèle, il ne prédira pas bien pour les échantillons provenant de populations similaires dans lesquelles les prédicteurs ne sont pas fortement corrélés.

Si vous souhaitez améliorer la précision de vos estimations de coefficient en présence de multicolinéarité, vous devez introduire un petit biais, le compensant par une réduction plus importante de la variance. Une façon consiste à supprimer entièrement les prédicteurs - avec LASSO, ou, dans le passé, avec des méthodes pas à pas -, ce qui met leurs estimations de coefficient à zéro. Une autre consiste à biaiser un peu toutes les estimations - avec régression de crête ou, dans le passé, régression sur les premières composantes principales. Un inconvénient de la première est qu'il n'est pas sûr que le modèle soit utilisé pour prédire les réponses des modèles de prédicteurs loin de celles qui se sont produites dans l'échantillon d'origine, car les prédicteurs ont tendance à être exclus simplement parce qu'ils ne sont pas très utiles avec d'autres, presque colinéaires, prédicteurs. (Ce n'est pas que l'extrapolation soit jamais complètement sûre.) Le filet élastique est un mélange des deux, comme l'explique @ user12436, et tend à garder des groupes de prédicteurs corrélés dans le modèle.

Scortchi - Réintégrer Monica
la source
Pourquoi ne prévoit-il pas bien dans ce nouvel échantillon?
user31820
1
Parce que le modèle manque un prédicteur important.
Scortchi - Réintégrer Monica
2
Si deux prédicteurs sont corrélés dans un échantillon représentatif d'une population, ne devraient-ils pas être corrélés dans un autre échantillon? si vous utilisez un modèle sur des données "éloignées de celles qui se sont produites dans l'échantillon d'origine", n'est-ce pas une utilisation non valide limite d'un modèle?
Matthew Drury
@MatthewDrury: Eh bien, si le "bon" modèle - s'il n'y a pas de facteurs de confusion non observés qui valent la peine d'être dérangés, et si la forme fonctionnelle est extrapolable - alors la distribution des prédicteurs dans l'échantillon n'a pas d'importance (bien que cela détermine bien sûr la précision de estimations et prévisions). Donc, à un extrême, vous pourriez avoir un modèle mécaniste basé sur les données d'une étude expérimentale bien contrôlée sur les facteurs causaux; de l'autre, un modèle empirique basé sur des données recueillies à partir d'une étude observationnelle sur un ensemble de variables qui étaient simplement faciles à mesurer.
Scortchi - Réintégrer Monica
La phrase: " dans l'ancien temps, les méthodes par étapes me faisaient sourire.: D (évident +1, c'est une bonne réponse)
usεr11852
4

Mais n'est-ce pas ce que nous voulons. Je veux dire que cela nous sauve du problème de la multicolinéarité n'est-ce pas.

Oui! et non. Le filet élastique est une combinaison de deux techniques de régularisation, la régularisation L2 (utilisée dans la régression de crête) et la régularisation L1 (utilisée dans LASSO).

Lasso produit des modèles naturellement clairsemés, c'est-à-dire que la plupart des coefficients variables seront réduits à 0 et effectivement exclus du modèle. Ainsi, les variables les moins significatives sont réduites, avant de réduire les autres, contrairement à la crête, où toutes les variables sont réduites, alors qu'aucune d'entre elles n'est vraiment réduite à 0.

Le filet élastique utilise une combinaison linéaire de ces deux approches. Le cas spécifique mentionné par Hastie lors de l'examen de la méthode était dans le cas de grand p, petit n. Ce qui signifie: des données dimensionnelles élevées avec relativement peu d'observations. Dans ce cas, LASSO ne sélectionnerait (apparemment) que tout au plus n variables, tout en éliminant tout le reste, voir l'article de Hastie .

Cela dépendra toujours de l'ensemble de données réel, mais vous pouvez bien imaginer que vous ne voulez pas toujours que la limite supérieure du nombre de variables dans vos modèles soit égale ou inférieure au nombre de vos observations.

sens à sens
la source
Mais qu'en est-il de la multicolinéarité. Le filet élastique permet de sélectionner des fonctionnalités colinéaires multiples ce qui n'est pas bon n'est-ce pas?
user31820
Je ne pense pas que de nombreux ensembles de données réels comportent des variables parfaitement multicolores. Les variables fortement corrélées peuvent être presque colinéaires, ce qui est toujours un problème, mais que vous pourriez être prêt à accepter, au cas où elles seraient toutes deux importantes pour votre modèle.
signifiant
Le lien ajouté ci-dessus mène à yahoo.com. De plus, [le document] ( onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/… ) est de Zou et Hastie (Elastic net one).
KarthikS
2

Le Lasso et Elastic Net sont des méthodes efficaces pour effectuer une sélection de variables ou de caractéristiques dans des paramètres de données de grande dimension (beaucoup plus de variables que les patients ou les échantillons; par exemple, 20 000 gènes et 500 échantillons de tumeurs).

Il a été démontré (par Hastie et d'autres) qu'Elastic Net peut surpasser Lasso lorsque les données sont fortement corrélées. Le lasso peut simplement sélectionner l'une des variables corrélées et ne se soucie pas laquelle est sélectionnée. Cela peut être un problème lorsque l'on veut valider les variables sélectionnées dans un ensemble de données indépendant. La variable sélectionnée par Lasso n'est peut-être pas le meilleur prédicteur parmi toutes les variables corrélées. Elastic Net résout ce problème en faisant la moyenne des variables hautement corrélées.

Milan
la source