J'utilise le package R pénalisé pour obtenir des estimations réduites des coefficients pour un ensemble de données où j'ai beaucoup de prédicteurs et peu de connaissances sur ceux qui sont importants. Après avoir choisi les paramètres de réglage L1 et L2 et que je suis satisfait de mes coefficients, existe-t-il un moyen statistiquement solide de résumer l'ajustement du modèle avec quelque chose comme R au carré?
De plus, je suis intéressé à tester la signification globale du modèle (c'est-à-dire que R² = 0, ou faire tout = 0).
J'ai lu les réponses à une question similaire posée ici , mais cela n'a pas tout à fait répondu à ma question. Il y a un excellent tutoriel sur le package R que j'utilise ici , et l'auteur Jelle Goeman avait la note suivante à la fin du tutoriel concernant les intervalles de confiance des modèles de régression pénalisés:
Il est très naturel de demander des erreurs types de coefficients de régression ou d'autres quantités estimées. En principe, ces erreurs standard peuvent être facilement calculées, par exemple en utilisant le bootstrap.
Pourtant, ce paquet ne les fournit pas délibérément. La raison en est que les erreurs-types ne sont pas très significatives pour les estimations fortement biaisées telles que celles résultant des méthodes d'estimation pénalisées. L'estimation pénalisée est une procédure qui réduit la variance des estimateurs en introduisant un biais substantiel. Le biais de chaque estimateur est donc une composante majeure de son erreur quadratique moyenne, tandis que sa variance ne peut contribuer qu’une petite partie.
Malheureusement, dans la plupart des applications de régression pénalisée, il est impossible d'obtenir une estimation suffisamment précise du biais. Tout calcul basé sur le bootstrap ne peut donner qu'une évaluation de la variance des estimations. Des estimations fiables du biais ne sont disponibles que si des estimations fiables non biaisées sont disponibles, ce qui n'est généralement pas le cas dans les situations où des estimations pénalisées sont utilisées.
Signaler une erreur standard d'une estimation pénalisée ne raconte donc qu'une partie de l'histoire. Il peut donner une impression erronée d'une grande précision, ignorant complètement l'inexactitude causée par le biais. C'est certainement une erreur de faire des déclarations de confiance qui ne sont basées que sur une évaluation de la variance des estimations, comme le font les intervalles de confiance basés sur le bootstrap.
la source
Réponses:
Ma première réaction aux commentaires de Jelle est "schias biaisés". Vous devez faire attention à ce que vous entendez par «grande quantité de prédicteurs». Cela pourrait être «important» en ce qui concerne:
Ma réaction était basée sur "grand" en ce qui concerne le point 1. C'est parce que dans ce cas, cela vaut généralement le compromis de biais pour la réduction de la variance que vous obtenez. Le biais n'est important que "à long terme". Donc, si vous avez un petit échantillon, alors qui se soucie de "le long terme"?
Cela dit, n'est probablement pas une quantité particulièrement bonne à calculer, surtout lorsque vous avez beaucoup de variables (car c'est à peu près tout ce que vous dit: vous avez beaucoup de variables). Je calculerais quelque chose de plus comme une "erreur de prédiction" en utilisant la validation croisée.R 2R2 R2
Idéalement, cette "erreur de prédiction" devrait être basée sur le contexte de votre situation de modélisation. Vous voulez essentiellement répondre à la question "Dans quelle mesure mon modèle reproduit-il les données?". Le contexte de votre situation devrait être en mesure de vous dire ce que «comment bien» signifie dans le monde réel. Vous devez ensuite traduire cela en une sorte d'équation mathématique.
Cependant, je n'ai pas de contexte évident pour sortir de la question. Un "défaut" serait donc quelque chose comme PRESS: Où est la valeur prédite pour pour un modèle ajusté sans le ième point de données ( n'influence pas les paramètres du modèle). Les termes de la sommation sont également appelés «résidus de suppression». Si cela est trop coûteux en calcul pour faire des ajustements de modèle (bien que la plupart des programmes vous donnent généralement quelque chose comme ça avec la sortie standard), je suggère de regrouper les données. Vous définissez donc la durée pendant laquelle vous êtes prêt à attendreY i , - i Y i Y i N T M G = T
la source
Le package R hdm et le package Stata lassopack prennent en charge un test de signification conjoint pour le lasso. La théorie permet que le nombre de prédicteurs soit grand par rapport au nombre d'observations. La théorie derrière le test et comment l'appliquer est brièvement expliquée dans la documentation hdm . En bref, il est basé sur un cadre pour la pénalisation théorique (développé par Belloni, Chernozhukov et Hansen, et al.). Cet article est un bon point de départ si vous voulez en savoir plus sur la théorie sous-jacente. Le seul inconvénient est que le test ne fonctionne que pour le lasso et (lasso à racine carrée). Pas pour les autres méthodes de régression pénalisées.
Belloni, A., Chen, D., Chernozhukov, V. et Hansen, C. (2012), Modèles et méthodes clairsemés pour des instruments optimaux avec une application à un domaine éminent. Econometrica, 80: 2369-2429.
la source