La régularisation de Tikhonov et la régression de crête sont des termes souvent utilisés comme s'ils étaient identiques. Est-il possible de spécifier exactement quelle est la
La régularisation de Tikhonov et la régression de crête sont des termes souvent utilisés comme s'ils étaient identiques. Est-il possible de spécifier exactement quelle est la
J'imagine que plus le coefficient d'une variable est grand, plus le modèle doit pouvoir "basculer" dans cette dimension, ce qui augmente les possibilités d'adaptation au bruit. Bien que je pense avoir une idée raisonnable de la relation entre la variance dans le modèle et les coefficients élevés,...
Lors de la régression, par exemple, deux hyper paramètres à choisir sont souvent la capacité de la fonction (par exemple, le plus grand exposant d’un polynôme) et la quantité de régularisation. Pourquoi ne pas simplement choisir une fonction à faible capacité, puis ignorer toute régularisation? De...
Remarque: Je sais que L1 a une propriété de sélection de fonction. J'essaie de comprendre lequel choisir lorsque la sélection des fonctionnalités est complètement hors de propos. Comment décider quelle régularisation (L1 ou L2) utiliser? Quels sont les avantages et les inconvénients de chacune des...
Je voudrais utiliser GLM et Elastic Net pour sélectionner ces fonctionnalités pertinentes + construire un modèle de régression linéaire (c'est-à-dire à la fois la prédiction et la compréhension, il serait donc préférable de se retrouver avec relativement peu de paramètres). La sortie est continue....
J'utilise la fonction auto.arima () dans le package de prévision pour adapter les modèles ARMAX avec une variété de covariables. Cependant, j'ai souvent un grand nombre de variables à sélectionner et je me retrouve généralement avec un modèle final qui fonctionne avec un sous-ensemble d'entre...
Le problème du lasso a la solution de forme fermée: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + si X a des colonnes orthonormées. Cela a été montré dans ce fil: Dérivation de la solution de lasso de forme fermée...
J'ai lu trois principales raisons de normaliser les variables avant quelque chose comme la Lassorégression: 1) Interprétabilité des coefficients. 2) Capacité de classer l'importance du coefficient en fonction de la magnitude relative des estimations du coefficient après retrait. 3) Pas besoin...
J'ai terminé le cours d'apprentissage automatique d'Andrew Ng il y a environ un an et j'écris maintenant mon exploration des mathématiques au lycée sur le fonctionnement de la régression logistique et des techniques pour optimiser les performances. Une de ces techniques est bien sûr la...
Lorsque j'utilise GAM, cela me donne un DF résiduel de (dernière ligne du code). Qu'est-ce que ça veut dire? Au-delà de l'exemple GAM, en général, le nombre de degrés de liberté peut-il être un nombre non entier?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call:...
J'ai lu dans un certain nombre de références que l'estimation de Lasso pour le vecteur de paramètre de régression est équivalente au mode postérieur de dans lequel la distribution antérieure pour chaque est une distribution exponentielle double (également connue sous le nom de distribution de...
Le papier net élastique original Zou & Hastie (2005) Régularisation et sélection des variables via le filet élastique introduit la fonction de perte nette élastique pour la régression linéaire (ici, je suppose que toutes les variables sont centrées et mises à l'échelle de la variance unitaire):...
Lorsque je présente des concepts à mes élèves, je trouve souvent amusant de leur dire d'où vient la terminologie («régression», par exemple, est un terme avec une origine intéressante). Je n'ai pas pu retracer l'historique / le contexte du terme "régularisation" en statistique / apprentissage...
J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y...
Pour la régression Lasso supposons que la meilleure solution (erreur de test minimale par exemple) sélectionne k fonctionnalités, de sorte que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ droite) .L ( β) =...
Supposons que j'ai un ensemble de données pour une tâche de classification statistique supervisée, par exemple via un classifieur Bayes. Cet ensemble de données se compose de 20 entités et je veux le résumer à 2 entités via des techniques de réduction de dimensionnalité telles que l'analyse en...
J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que...
Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOui∼ XOui∼XY \sim XkkkXXXOuiOuiY Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les...
On m'a donc posé une question sur laquelle les mesures centrales L1 (c.-à-d. Le lasso) et L2 (c.-à-d. La régression des crêtes) ont été estimées. La réponse est L1 = médiane et L2 = moyenne. Y a-t-il un type de raisonnement intuitif à cela? Ou faut-il le déterminer algébriquement? Si oui, comment...
Je comprends le rôle que joue lambda dans une régression élastique-nette. Et je peux comprendre pourquoi on sélectionnerait lambda.min, la valeur de lambda qui minimise l'erreur de validation croisée. Ma question est: où dans la littérature statistique est-il recommandé d'utiliser lambda.1se,...