Estimation de la valeur R au carré et de la signification statistique à partir d'un modèle de régression pénalisé

20

J'utilise le package R pénalisé pour obtenir des estimations réduites des coefficients pour un ensemble de données où j'ai beaucoup de prédicteurs et peu de connaissances sur ceux qui sont importants. Après avoir choisi les paramètres de réglage L1 et L2 et que je suis satisfait de mes coefficients, existe-t-il un moyen statistiquement solide de résumer l'ajustement du modèle avec quelque chose comme R au carré?

De plus, je suis intéressé à tester la signification globale du modèle (c'est-à-dire que R² = 0, ou faire tout = 0).

J'ai lu les réponses à une question similaire posée ici , mais cela n'a pas tout à fait répondu à ma question. Il y a un excellent tutoriel sur le package R que j'utilise ici , et l'auteur Jelle Goeman avait la note suivante à la fin du tutoriel concernant les intervalles de confiance des modèles de régression pénalisés:

Il est très naturel de demander des erreurs types de coefficients de régression ou d'autres quantités estimées. En principe, ces erreurs standard peuvent être facilement calculées, par exemple en utilisant le bootstrap.

Pourtant, ce paquet ne les fournit pas délibérément. La raison en est que les erreurs-types ne sont pas très significatives pour les estimations fortement biaisées telles que celles résultant des méthodes d'estimation pénalisées. L'estimation pénalisée est une procédure qui réduit la variance des estimateurs en introduisant un biais substantiel. Le biais de chaque estimateur est donc une composante majeure de son erreur quadratique moyenne, tandis que sa variance ne peut contribuer qu’une petite partie.

Malheureusement, dans la plupart des applications de régression pénalisée, il est impossible d'obtenir une estimation suffisamment précise du biais. Tout calcul basé sur le bootstrap ne peut donner qu'une évaluation de la variance des estimations. Des estimations fiables du biais ne sont disponibles que si des estimations fiables non biaisées sont disponibles, ce qui n'est généralement pas le cas dans les situations où des estimations pénalisées sont utilisées.

Signaler une erreur standard d'une estimation pénalisée ne raconte donc qu'une partie de l'histoire. Il peut donner une impression erronée d'une grande précision, ignorant complètement l'inexactitude causée par le biais. C'est certainement une erreur de faire des déclarations de confiance qui ne sont basées que sur une évaluation de la variance des estimations, comme le font les intervalles de confiance basés sur le bootstrap.

Stephen Turner
la source
1
Bien sûr, une façon d'obtenir rapidement une estimation du R au carré est d'ajuster un modèle linéaire prédisant les valeurs ajustées à partir des données d'origine et de prendre le R au carré à partir de cela. Mais cela semble être une estimation massivement surajustée et biaisée du R au carré.
Stephen Turner
J'ajoute cela en tant que commentaire car je pose une question "similaire" dans un message à proximité (donc je ne sais pas si je peux donner une réponse ), mais pour votre question en particulier, il semble que vous pouvez calculer le R au carré sans en avoir besoin hypothèses de distribution (elles sont cependant nécessaires pour les tests d'hypothèse de la manière habituelle). Ne pouvez-vous pas utiliser un ensemble de retenue pour calculer le r au carré ou utiliser une validation du pli k si vous n'avez pas suffisamment de données (à chaque pli, exécutez votre processus pénalisé complet et faites la moyenne des carrés r de chacun des plis non utilisé dans le raccord)?
B_Miner
1
@B_Miner, la validation croisée - tend à donner des estimations assez biaisées de , car elle n'évalue généralement pas la vraie quantité d'intérêt. Beaucoup (la plupart?) De procédures similaires ont le même problème. R 2kR2
cardinal
1
@Stephen, vraiment la quantité qui vous intéresse? En raison du biais induit par la pénalisation, il n'est probablement pas souhaitable de ne considérer que la variance expliquée, sauf si vous avez déjà une très bonne estimation du biais. L'idée générale d'utiliser comme base pour l'inférence est fondée sur le caractère non biaisé des estimations. Même les principaux manuels de régression semblent «oublier» cela. (Voir, par exemple, le traitement quelque peu défectueux de Seber et Lee de dans le cas de régression multiple.)R 2 R 2R2 R2R2
Cardinal
1
Je pense que peut être défini de la manière habituelle et peut parfois être utile. Même si les erreurs-types ne tiennent pas compte du biais, ce sont les erreurs-types des quantités "conservatrices, rétrécies vers zéro". Ils ne peuvent peut-être pas être utilisés pour l'inférence formelle, mais j'aimerais entendre plus de discussions avant de conclure qu'ils ne devraient jamais être utilisés. R2
Frank Harrell

Réponses:

4

Ma première réaction aux commentaires de Jelle est "schias biaisés". Vous devez faire attention à ce que vous entendez par «grande quantité de prédicteurs». Cela pourrait être «important» en ce qui concerne:

  1. Le nombre de points de données ("big p small n")
  2. Le temps dont vous disposez pour étudier les variables
  3. Le coût de calcul de l'inversion d'une matrice géante

Ma réaction était basée sur "grand" en ce qui concerne le point 1. C'est parce que dans ce cas, cela vaut généralement le compromis de biais pour la réduction de la variance que vous obtenez. Le biais n'est important que "à long terme". Donc, si vous avez un petit échantillon, alors qui se soucie de "le long terme"?

Cela dit, n'est probablement pas une quantité particulièrement bonne à calculer, surtout lorsque vous avez beaucoup de variables (car c'est à peu près tout ce que vous dit: vous avez beaucoup de variables). Je calculerais quelque chose de plus comme une "erreur de prédiction" en utilisant la validation croisée.R 2R2R2

Idéalement, cette "erreur de prédiction" devrait être basée sur le contexte de votre situation de modélisation. Vous voulez essentiellement répondre à la question "Dans quelle mesure mon modèle reproduit-il les données?". Le contexte de votre situation devrait être en mesure de vous dire ce que «comment bien» signifie dans le monde réel. Vous devez ensuite traduire cela en une sorte d'équation mathématique.

Cependant, je n'ai pas de contexte évident pour sortir de la question. Un "défaut" serait donc quelque chose comme PRESS: Où est la valeur prédite pour pour un modèle ajusté sans le ième point de données ( n'influence pas les paramètres du modèle). Les termes de la sommation sont également appelés «résidus de suppression». Si cela est trop coûteux en calcul pour faire des ajustements de modèle (bien que la plupart des programmes vous donnent généralement quelque chose comme ça avec la sortie standard), je suggère de regrouper les données. Vous définissez donc la durée pendant laquelle vous êtes prêt à attendreY i , - i Y i Y i N T M G = T

PRESS=je=1N(Ouije-Oui^je,-je)2
Oui^je,-jeOuijeOuijeNT( de préférence pas 0 ^ _ ^), puis diviser par le temps qu'il faut pour adapter à votre modèle . Cela donnera un total de réajustements, avec un échantillon de . Un moyen vous pouvez vous faire une idée de l’importance de chaque variable, c’est de réajuster une régression ordinaire (variables dans le même ordre). Ensuite, vérifiez proportionnellement combien chaque estimateur a été réduit à zéroM Ng=N×Mg=TM PRESS= G Σ g=1 N g Σ i=1(Yig - Y ig,-g)2β L A S S ONg=N×MT
PRESS=g=1gje=1Ng(Ouijeg-Oui^jeg,-g)2
βLUNESSOβUNCONSTRUNEjeNE. Le lasso et d'autres régressions contraintes peuvent être considérés comme une "sélection de variables en douceur", car plutôt que d'adopter une approche binaire "in-or-out", chaque estimation est rapprochée de zéro, selon son importance pour le modèle (comme mesuré par les erreurs).
probabilitéislogique
la source
3
tout ce que vous avez semblé faire ci-dessus est de décrire la validation croisée avec non-sortie et la validation croisée . Le premier est rarement utilisé de nos jours en raison de la variance élevée et des coûts de calcul généralement élevés (certains paramètres de régression étant l'exception). Quant à vos remarques sur l'influence, si il n'y a pas d'estimations des moindres carrés uniques, ce qui est une complication. De plus, les signes des estimations des paramètres peuvent également être différents. Je ne suis pas positif, mais même lorsque les estimations de l'OLS existent, il peut toujours y avoir des situations où votre ratio pourrait être pour certains paramètres. p > n > 1kp>n>1
cardinal
1

Le package R hdm et le package Stata lassopack prennent en charge un test de signification conjoint pour le lasso. La théorie permet que le nombre de prédicteurs soit grand par rapport au nombre d'observations. La théorie derrière le test et comment l'appliquer est brièvement expliquée dans la documentation hdm . En bref, il est basé sur un cadre pour la pénalisation théorique (développé par Belloni, Chernozhukov et Hansen, et al.). Cet article est un bon point de départ si vous voulez en savoir plus sur la théorie sous-jacente. Le seul inconvénient est que le test ne fonctionne que pour le lasso et (lasso à racine carrée). Pas pour les autres méthodes de régression pénalisées.

Belloni, A., Chen, D., Chernozhukov, V. et Hansen, C. (2012), Modèles et méthodes clairsemés pour des instruments optimaux avec une application à un domaine éminent. Econometrica, 80: 2369-2429.

aahr1
la source
veuillez ajouter la référence complète de l'article (un lien peut mourir)
Antoine