J'effectue une analyse dont l'objectif principal est de comprendre les données. L'ensemble de données est suffisamment grand pour la validation croisée (10k), et les prédicteurs incluent des variables continues et factices, et le résultat est continu. L'objectif principal était de voir s'il était judicieux de supprimer certains prédicteurs, afin de rendre le modèle plus facile à interpréter.
Des questions:
Ma question est "quels sont les vars qui expliquent le résultat et qui constituent une partie" assez forte "de cette explication". Mais pour sélectionner le paramètre lambda pour le lasso, vous utilisez la validation croisée, c'est-à-dire la validité prédictive comme critère. Lors de l'inférence, la validité prédictive est-elle un proxy assez bon pour la question générale que je pose?
Supposons que LASSO ne conserve que 3 prédicteurs sur 8. Et maintenant je me demande: "quel effet cela a-t-il sur le résultat". Par exemple, j'ai trouvé une différence de genre. Après le rétrécissement du lasso, le coefficient suggère que les femmes obtiennent 1 point de plus que les hommes. Mais sans le rétrécissement (c'est-à-dire sur l'ensemble de données réel), ils obtiennent 2,5 points de plus.
- Lequel est-ce que je prendrais comme mon "vrai" effet de genre? En partant uniquement de la validité prédictive, ce serait le coefficient rétréci.
- Ou dans un contexte, disons que j'écris un rapport pour des gens qui ne connaissent pas bien les statistiques. Quel coefficient leur rapporterais-je?
la source
Réponses:
Si votre objectif est d'estimer avec précision les paramètres de votre modèle, la façon dont vous êtes proche du vrai modèle est la façon dont vous devez sélectionner votre modèle. La validité prédictive via la validation croisée est une façon de le faire et est la méthode préférée pour sélectionner dans la régression LASSO. λ∗ λ
Maintenant, pour répondre à la question de savoir quelle estimation de paramètre est "l'estimation réelle", il faut regarder quel paramètre est "le plus proche" de la valeur réelle du paramètre. Est-ce que "plus proche" signifie les estimations des paramètres qui minimisent le biais? Si tel est le cas, l'estimateur le moins carré est sans biais en régression linéaire. Est-ce que le plus proche signifie l'estimation des paramètres qui minimise l'erreur quadratique moyenne (MSE)? Ensuite, il peut être démontré qu'il existe une spécification de la régression des crêtes qui vous donnera des estimations qui minimisent l'ESM (similaire à LASSO, la régression des crêtes réduit les estimations des paramètres vers zéro mais, contrairement à LASSO, les estimations des paramètres n'atteignent pas zéro). De même,λ ). En tant que statisticien, vous devez déterminer quelle est la "meilleure" estimation et la rapporter (de préférence avec une certaine indication de la confiance de l'estimation) à ceux qui ne connaissent pas bien les statistiques. Ce qui est «le meilleur» peut ou non être une estimation biaisée.
glmnet
la source