Calcul du meilleur sous-ensemble de prédicteurs pour la régression linéaire

9

Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas l'article original. Quelqu'un peut-il décrire cette méthode ou, mieux encore, une technique plus moderne? On peut supposer des erreurs normalement distribuées.2 pp2p

shabbychef
la source
1
Faites-vous référence à l'article suivant? Kuk, AYC (1984) Régression de tous les sous-ensembles dans un modèle à risques proportionnels. Biometrika, 71, 587-592
chl
Oui en effet. Je suppose que je vais devoir déterrer ce papier d'une manière ou d'une autre. Cela semble cependant vieux.
shabbychef
2
Retrouvez cet article en attendant, The lasso method for variable selection in the cox model, de Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl
1
et celui plus récent (étroitement lié au penalizedpackage R), j.mp/cooIT3 . Peut-être que celui-ci aussi, j.mp/bkDQUj . Vive
CHL

Réponses:

12

Je n'ai jamais entendu parler de la méthode de Kuk, mais le sujet brûlant de nos jours est la minimisation L1. La raison étant que si vous utilisez un terme de pénalité de la valeur absolue des coefficients de régression, ceux qui ne sont pas importants devraient aller à zéro.

Ces techniques ont des noms amusants: Lasso, LARS, sélecteur Dantzig. Vous pouvez lire les articles, mais un bon point de départ est avec Éléments d'apprentissage statistique , chapitre 3.

Simon Byrne
la source
2
BTW, le package R pénalisé ( j.mp/bdQ0Rp ) comprend une estimation pénalisée l1 / l2 pour les modèles linéaires généralisés et Cox.
chl
coincé dans le matlab land, l'implémentant moi-même ...
shabbychef
LARS est super, BTW. trucs très cool. Je ne sais pas comment je peux le brouiller dans le cadre du modèle Cox Proportional Hazards, tho ...
shabbychef
2
Le logiciel Glmnet a un modèle Cox PH au lasso : cran.r-project.org/web/packages/glmnet/index.html il y a aussi une version MATLAB (je ne sais pas si c'est un modèle cox): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne
3

C'est un sujet énorme. Comme mentionné précédemment, Hastie, Tibshirani et Friedman donnent une bonne introduction au Ch3 des éléments de l'apprentissage statistique.

Quelques points. 1) Qu'entendez-vous par «meilleur» ou «optimal»? Ce qui est mieux dans un sens peut ne pas l'être dans un autre. Deux critères communs sont l'exactitude prédictive (prédire la variable de résultat) et la production d'estimateurs non biaisés des coefficients. Certaines méthodes, telles que la régression de Lasso et de crête, produisent inévitablement des estimateurs de coefficient biaisés.

2) L'expression "meilleurs sous-ensembles" elle-même peut être utilisée dans deux sens distincts. Généralement, pour faire référence au meilleur sous-ensemble parmi tous les prédicteurs qui optimise certains critères de construction de modèle. Plus précisément, il peut se référer à l'algorithme efficace de Furnival et Wilson pour trouver ce sous-ensemble parmi un nombre modéré (~ 50) de prédicteurs linéaires (Regressions by Leaps and Bounds. Technometrics, Vol.16, No 4 (Nov., 1974), pp. 499-51)

http://www.jstor.org/stable/1267601

Thylacoleo
la source
1) oui, la question est quelque peu ambiguë; il y a, comme vous le mentionnez, de nombreuses définitions de `` optimal '': via le critère d'information, la validation croisée, etc. La plupart des approches heuristiques que j'ai vues au problème procèdent par addition / suppression de prédicteurs pas à pas: ajout ou soustraction en une seule passe, etc. Cependant, Hosmer & Lemeshow font référence à cette méthode (une variante du travail de Lawless & Singhal), qui sélectionne en quelque sorte «magiquement» les prédicteurs par un seul calcul d'un MLR (modulo quelques autres trucs). Je suis très curieux de cette méthode ...
shabbychef
0

Ce que j'ai appris, c'est que l'utilisation de l'approche des meilleurs sous-ensembles en premier lieu comme outil de sélection, puis les procédures de sélection pas à pas peuvent vous aider à décider enfin quels modèles pourraient être les meilleurs sous-ensembles (à l'heure actuelle, le nombre de ces modèles est assez petit à gérer). Si l'un des modèles remplit les conditions du modèle, résume bien la tendance des données et, surtout, vous permet de répondre à votre question de recherche, alors félicitations, votre travail est terminé.

Rosie Luo
la source
1
Je pense que vous vous en souvenez peut-être mal. Les meilleurs sous-ensembles sont beaucoup plus chers en termes de calcul que pas à pas, mais captureraient nécessairement tout ce qui serait pas à pas, vous utiliseriez donc pas à pas pour filtrer les meilleurs sous-ensembles après. FWIW, je ne suis pas d'accord avec l'utilisation naïve de ces stratégies, pour des raisons que j'explique dans ma réponse ici: les algorithmes de sélection automatique de modèle .
gung - Réintégrer Monica