Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas l'article original. Quelqu'un peut-il décrire cette méthode ou, mieux encore, une technique plus moderne? On peut supposer des erreurs normalement distribuées.2 p
9
penalized
package R), j.mp/cooIT3 . Peut-être que celui-ci aussi, j.mp/bkDQUj . ViveRéponses:
Je n'ai jamais entendu parler de la méthode de Kuk, mais le sujet brûlant de nos jours est la minimisation L1. La raison étant que si vous utilisez un terme de pénalité de la valeur absolue des coefficients de régression, ceux qui ne sont pas importants devraient aller à zéro.
Ces techniques ont des noms amusants: Lasso, LARS, sélecteur Dantzig. Vous pouvez lire les articles, mais un bon point de départ est avec Éléments d'apprentissage statistique , chapitre 3.
la source
C'est un sujet énorme. Comme mentionné précédemment, Hastie, Tibshirani et Friedman donnent une bonne introduction au Ch3 des éléments de l'apprentissage statistique.
Quelques points. 1) Qu'entendez-vous par «meilleur» ou «optimal»? Ce qui est mieux dans un sens peut ne pas l'être dans un autre. Deux critères communs sont l'exactitude prédictive (prédire la variable de résultat) et la production d'estimateurs non biaisés des coefficients. Certaines méthodes, telles que la régression de Lasso et de crête, produisent inévitablement des estimateurs de coefficient biaisés.
2) L'expression "meilleurs sous-ensembles" elle-même peut être utilisée dans deux sens distincts. Généralement, pour faire référence au meilleur sous-ensemble parmi tous les prédicteurs qui optimise certains critères de construction de modèle. Plus précisément, il peut se référer à l'algorithme efficace de Furnival et Wilson pour trouver ce sous-ensemble parmi un nombre modéré (~ 50) de prédicteurs linéaires (Regressions by Leaps and Bounds. Technometrics, Vol.16, No 4 (Nov., 1974), pp. 499-51)
http://www.jstor.org/stable/1267601
la source
Ce que j'ai appris, c'est que l'utilisation de l'approche des meilleurs sous-ensembles en premier lieu comme outil de sélection, puis les procédures de sélection pas à pas peuvent vous aider à décider enfin quels modèles pourraient être les meilleurs sous-ensembles (à l'heure actuelle, le nombre de ces modèles est assez petit à gérer). Si l'un des modèles remplit les conditions du modèle, résume bien la tendance des données et, surtout, vous permet de répondre à votre question de recherche, alors félicitations, votre travail est terminé.
la source