Je cherche une définition non technique du lasso et de son
Inclusion de contraintes supplémentaires (généralement une pénalité pour la complexité) dans le processus d'ajustement du modèle. Utilisé pour éviter le surajustement / améliorer la précision prédictive.
Je cherche une définition non technique du lasso et de son
Considérons les trois phénomènes suivants. Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus...
La saison des vacances m'a donné l'occasion de m'installer près du feu avec Les éléments d'apprentissage statistique . Venant d’une perspective économétrique (fréquentiste), j’ai du mal à comprendre les utilisations de méthodes de réduction telles que la régression de crête, le lasso et la...
Je comprends que l’estimation de la régression de crête est la qui minimise la somme résiduelle du carré et une pénalité sur la taille deβββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y =...
Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le...
Quelle est la formule exacte utilisée dans R lm() pour le R au carré ajusté? Comment puis-je l'interpréter? Formules ajustées au carré Il semble exister plusieurs formules pour calculer le R au carré ajusté. Formule de Wherry: 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} La...
J'ai lu trois principales raisons de normaliser les variables avant quelque chose comme la Lassorégression: 1) Interprétabilité des coefficients. 2) Capacité de classer l'importance du coefficient en fonction de la magnitude relative des estimations du coefficient après retrait. 3) Pas besoin...
Le papier net élastique original Zou & Hastie (2005) Régularisation et sélection des variables via le filet élastique introduit la fonction de perte nette élastique pour la régression linéaire (ici, je suppose que toutes les variables sont centrées et mises à l'échelle de la variance unitaire):...
J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y...
La régression LASSO réduit les coefficients vers zéro, permettant ainsi une sélection efficace du modèle. Je crois que dans mes données, il existe des interactions significatives entre les covariables nominales et continues. Cependant, les «principaux effets» du vrai modèle ne sont pas...
Pour un modèle linéaire , le terme de retrait est toujours .y=β0+xβ+εy=β0+Xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de...
La précision est définie comme: p = true positives / (true positives + false positives) Est - il exact que, true positiveset false positivesapproche 0, la précision approche 1? Même question pour rappel: r = true positives / (true positives + false negatives) J'implémente actuellement un test...
J'ai lu sur l'estimateur de James-Stein. Il est défini, dans ces notes , comme θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X J'ai lu la preuve mais je ne comprends pas l'énoncé suivant: Géométriquement, l'estimateur de James – Stein rétrécit chaque composante de...
J'ai une question sur le calcul du facteur de rétrécissement de James-Stein dans l'article de 1977 de Scientific American de Bradley Efron et Carl Morris, "Stein's Paradox in Statistics" . J'ai rassemblé les données pour les joueurs de baseball et elles sont données ci-dessous: Name, avg45,...
La régression de crête estime les paramètres ββ\boldsymbol \beta dans un modèle linéaire y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta by β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y, où...
Si nous commençons avec un ensemble de données , y appliquons Lasso et obtenons une solution , nous pouvons appliquer à nouveau Lasso à l'ensemble de données , où S est l'ensemble des non index zéro de \ beta ^ L , pour obtenir une solution, \ beta ^ {RL} , appelée solution 'LASSO détendue'...
Je suis pris par l'idée du rétrécissement de James-Stein (c'est-à-dire qu'une fonction non linéaire d'une observation unique d'un vecteur de normales éventuellement indépendantes peut être un meilleur estimateur des moyennes des variables aléatoires, où «mieux» est mesuré par erreur quadratique )....
Existe-t-il des résultats analytiques ou des articles expérimentaux concernant le choix optimal du coefficient du terme de pénalité ℓ1ℓ1\ell_1 ? Par optimal , je veux dire un paramètre qui maximise la probabilité de sélectionner le meilleur modèle, ou qui minimise la perte attendue. Je pose la...
Il y a déjà un article sur ce site qui parle du même problème: pourquoi le retrait fonctionne-t-il? Mais, même si les réponses sont populaires, je ne crois pas que l'essentiel de la question soit vraiment abordé. Il est assez clair que l'introduction d'un biais dans l'estimation entraîne une...
Le mot rétrécissement est souvent utilisé dans certains cercles. Mais ce qui est rétrécissement, il ne semble pas y avoir de définition claire. Si j'ai une série chronologique (ou toute collection d'observations d'un processus), quelles sont les différentes façons de mesurer un certain type de...