LASSO pour les modèles explicatifs: paramètres réduits ou non?

9

J'effectue une analyse dont l'objectif principal est de comprendre les données. L'ensemble de données est suffisamment grand pour la validation croisée (10k), et les prédicteurs incluent des variables continues et factices, et le résultat est continu. L'objectif principal était de voir s'il était judicieux de supprimer certains prédicteurs, afin de rendre le modèle plus facile à interpréter.

Des questions:

  1. Ma question est "quels sont les vars qui expliquent le résultat et qui constituent une partie" assez forte "de cette explication". Mais pour sélectionner le paramètre lambda pour le lasso, vous utilisez la validation croisée, c'est-à-dire la validité prédictive comme critère. Lors de l'inférence, la validité prédictive est-elle un proxy assez bon pour la question générale que je pose?

  2. Supposons que LASSO ne conserve que 3 prédicteurs sur 8. Et maintenant je me demande: "quel effet cela a-t-il sur le résultat". Par exemple, j'ai trouvé une différence de genre. Après le rétrécissement du lasso, le coefficient suggère que les femmes obtiennent 1 point de plus que les hommes. Mais sans le rétrécissement (c'est-à-dire sur l'ensemble de données réel), ils obtiennent 2,5 points de plus.

    • Lequel est-ce que je prendrais comme mon "vrai" effet de genre? En partant uniquement de la validité prédictive, ce serait le coefficient rétréci.
    • Ou dans un contexte, disons que j'écris un rapport pour des gens qui ne connaissent pas bien les statistiques. Quel coefficient leur rapporterais-je?
mbokulic
la source
1
Quel type de modèle regardez-vous? Modèle linéaire, logistique, poisson, etc.?
TrynnaDoStat
1
C'est un modèle linéaire, mais je ne pense pas que cela fasse une différence pour la question
mbokulic

Réponses:

7

Si votre objectif est d'estimer avec précision les paramètres de votre modèle, la façon dont vous êtes proche du vrai modèle est la façon dont vous devez sélectionner votre modèle. La validité prédictive via la validation croisée est une façon de le faire et est la méthode préférée pour sélectionner dans la régression LASSO. λλ

Maintenant, pour répondre à la question de savoir quelle estimation de paramètre est "l'estimation réelle", il faut regarder quel paramètre est "le plus proche" de la valeur réelle du paramètre. Est-ce que "plus proche" signifie les estimations des paramètres qui minimisent le biais? Si tel est le cas, l'estimateur le moins carré est sans biais en régression linéaire. Est-ce que le plus proche signifie l'estimation des paramètres qui minimise l'erreur quadratique moyenne (MSE)? Ensuite, il peut être démontré qu'il existe une spécification de la régression des crêtes qui vous donnera des estimations qui minimisent l'ESM (similaire à LASSO, la régression des crêtes réduit les estimations des paramètres vers zéro mais, contrairement à LASSO, les estimations des paramètres n'atteignent pas zéro). De même,λ). En tant que statisticien, vous devez déterminer quelle est la "meilleure" estimation et la rapporter (de préférence avec une certaine indication de la confiance de l'estimation) à ceux qui ne connaissent pas bien les statistiques. Ce qui est «le meilleur» peut ou non être une estimation biaisée.

glmnetλλ

λ

TrynnaDoStat
la source
Qu'entendiez-vous par «biais» dans «les estimations des paramètres qui minimisent le biais»? Et est-ce que je lis le reste correctement si je le lis comme ceci: devrais-je choisir le modèle qui a le MSE estimé hors échantillon le plus bas (c'est-à-dire en validation croisée)? Étant donné que la crête est hors de question car je veux une matrice de coefficients clairsemés, signaler les coefficients de lasso rétrécis est la voie à suivre
mbokulic
λ
intéressant, je n'y ai jamais pensé de cette façon. Encore une fois, je dois vous demander si je vous ai bien compris. La régression linéaire vous donne donc l'estimation la plus impartiale des coefficients de population (l'exemple "2,5 points plus élevé" dans ma question initiale). Alors que le lasso ou la crête regr. minimiser le MSE hors échantillon. Si c'est le cas, si vous voulez juste comprendre (pas prédire), la régression linéaire semble meilleure, bien que vous souhaitiez toujours simplifier le modèle avec, par exemple, des méthodes pas à pas.
mbokulic
les réponses ici sont utiles. Ils suggèrent que l'OLS (régression linéaire) a la performance de bast dans l'échantillon, tandis que le lasso est pour hors échantillon. En outre, ils suggèrent que l'OLS peut être utilisé sur l'ensemble restreint de prédicteurs sélectionnés par le lasso. C'est exactement ce qui fait sens pour mon objectif d'interprétation, même si les estimations de l'OLS seront légèrement surajustées.
mbokulic