Je voudrais poser cette question en deux parties. Les deux traitent d'un modèle linéaire généralisé, mais le premier traite de la sélection du modèle et les autres de la régularisation.
Contexte: J'utilise des modèles GLM (linéaire, logistique, régression gamma) à la fois pour la prédiction et pour la description. Quand je fais référence aux « choses normales que l'on fait avec une régression », je veux dire en grande partie la description avec (i) des intervalles de confiance autour des coefficients, (ii) des intervalles de confiance autour des prédictions et (iii) des tests d'hypothèse concernant les combinaisons linéaires des coefficients tels que «est existe-t-il une différence entre le traitement A et le traitement B? ".
Perdez-vous légitimement la capacité de faire ces choses en utilisant la théorie normale sous chacun des éléments suivants? Et si oui, ces choses ne sont-elles vraiment bonnes que pour les modèles utilisés pour la prédiction pure?
I. Lorsqu'un GLM a été ajusté via un processus de sélection de modèle (pour le concret, dites que c'est une procédure par étapes basée sur l'AIC).
II. Lorsqu'un GLM a été ajusté via une méthode de régularisation (par exemple, en utilisant glmnet dans R).
Mon sentiment est que pour moi, la réponse est techniquement que vous devez utiliser un bootstrap pour les " choses normales que l'on fait avec une régression ", mais personne ne respecte vraiment cela.
Ajouter:
Après avoir obtenu quelques réponses et lu ailleurs, voici mon point de vue à ce sujet (pour tout le monde en bénéficier ainsi que pour recevoir une correction).
I.
A) RE: Erreur généraliser. Afin de généraliser les taux d'erreur sur les nouvelles données, lorsqu'il n'y a aucun ensemble de blocage, la validation croisée peut fonctionner mais vous devez répéter le processus complètement pour chaque pli - en utilisant des boucles imbriquées - donc toute sélection de caractéristique, réglage des paramètres, etc. doit être fait indépendamment à chaque fois. Cette idée devrait être valable pour tout effort de modélisation (y compris les méthodes pénalisées).
B) RE: Test d'hypothèse et intervalles de confiance du GLM.Lors de l'utilisation de la sélection de modèle (sélection d'entités, réglage des paramètres, sélection de variables) pour un modèle linéaire généralisé et un ensemble d'exclusion existe, il est permis de former le modèle sur une partition, puis d'ajuster le modèle sur les données restantes ou l'ensemble de données complet et utiliser ce modèle / ces données pour effectuer des tests d'hypothèses, etc. S'il n'y a pas d'ensemble d'exclusion, un bootstrap peut être utilisé, tant que le processus complet est répété pour chaque échantillon de bootstrap. Cela limite les tests d'hypothèses qui peuvent être effectués, car peut-être qu'une variable ne sera pas toujours sélectionnée par exemple.
C) RE: Ne pas effectuer de prédiction sur les futurs ensembles de données, puis adapter un modèle intentionnel guidé par la théorie et quelques tests d'hypothèse et même envisager de laisser toutes les variables dans le modèle (significatives ou non) (dans le sens de Hosmer et Lemeshow). Il s'agit d'un modèle de régression classique à petit ensemble de variables, qui permet ensuite d'utiliser les IC et le test d'hypothèse.
D) RE: régression pénalisée. Aucun conseil, considérez peut-être que cela ne convient qu'à la prédiction (ou comme un type de sélection de caractéristiques à appliquer ensuite à un autre ensemble de données comme dans B ci-dessus) car le biais introduit rend les CI et les tests d'hypothèse imprudents - même avec le bootstrap.
Réponses:
Vous pouvez consulter l'article de David Freedman, " A Note on Screening Regression Equations. " (Non fermé)
En utilisant des données complètement non corrélées dans une simulation, il montre que, s'il existe de nombreux prédicteurs par rapport au nombre d'observations, une procédure de dépistage standard produira une régression finale qui contiendra de nombreux prédicteurs significatifs (plus que par hasard) et un F très significatif. statistique. Le modèle final suggère qu'il est efficace pour prédire le résultat, mais ce succès est faux. Il illustre également ces résultats à l'aide de calculs asymptotiques. Les solutions suggérées comprennent le dépistage sur un échantillon et l'évaluation du modèle sur l'ensemble complet de données et l'utilisation d'au moins un ordre de grandeur de plus d'observations que de prédicteurs.
la source
Concernant 1) Oui, vous perdez cela. Voir par exemple Harrell Regression Modeling Strategies, un livre publié par Wiley ou un article que j'ai présenté avec David Cassell intitulé "Stopping Stepwise" disponible par exemple www.nesug.org/proceedings/nesug07/sa/sa07.pdf
la source