Comment fonctionne la «régression pas à pas»?

11

J'ai utilisé le code R suivant pour s'adapter à un modèle probit:

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

Je veux savoir ce que fait stepwiseet backward/forwardfait exactement et comment sélectionner les variables?

Mahmoud
la source
7
Quelques commentaires de Frank Harrell ( stats.stackexchange.com/users/4253/frank-harrell ) sur les raisons pour lesquelles la régression pas à pas est mauvaise: stata.com/support/faqs/statistics/stepwise-regression-problems
4
En plus des liens de BabakP, jetez également un œil à cet article du site.
COOLSerdash
3
Un autre article sur les problèmes liés à l'étape (et en arrière et en avant également) est un article que j'ai écrit avec David Cassell: Stopping Stepwise
Peter Flom - Reinstate Monica
@PeterFlom, afin de faire référence à cet article, j'ai des problèmes pour comprendre la citation appropriée. Pourriez-vous s'il vous plaît le lister ici? Merci.
doug.numbers
2
@ doug.numbers Il a été présenté à divers endroits et publié dans le cadre des actes de la conférence. Si vous utilisez Google "Flom, Cassell, Stepwise", vous obtiendrez des endroits où il a été présenté et vous pouvez le formater comme vous formatez les citations des présentations publiées.
Peter Flom - Réintègre Monica

Réponses:

10

Principe de sélection pas à pas

  1. Vous ajustez un modèle avec toutes les variables que vous souhaitez. C'est votre meilleur modèle actuel.
  2. Vous supprimez une variable (ou en ajoutez une, parmi les variables non utilisées dans le meilleur modèle actuel), et pour chacune, vous ajustez le nouveau modèle, et vous les comparez avec chacune au-dessus et avec l'original, selon BIC (ou tout autre critère, comme l' AIC ). Vous obtenez un autre "meilleur modèle actuel".

Vous répétez 2. jusqu'à ce qu'il n'y ait pas de réduction de BIC. Vous avez seulement un minimum local de BIC, ce qui signifie que vous ne pouvez pas obtenir le meilleur modèle parmi tous les choix possibles de sous-ensembles de variables. Mais de toute façon, ils sont généralement trop nombreux, c'est donc un moyen d'optimiser un peu, sans trop de travail.

Voir aussi Régression pas à pas et sélection de modèles sur Wikipédia.


la source
5

La régression pas à pas correspond essentiellement au modèle de régression en ajoutant / supprimant des covariables une à la fois en fonction d'un critère spécifié (dans votre exemple ci-dessus, le critère serait basé sur le BIC).

En spécifiant vers l'avant, vous Rdites que vous souhaitez commencer avec le modèle le plus simple (c'est-à-dire une covariable), puis ajouter une covariable une à la fois en ne conservant que celles qui entraînent une amélioration des modèles BIC.

En indiquant en arrière, vous Rdites que vous voulez commencer avec le modèle complet (c'est-à-dire le modèle avec toutes les covariables), puis supprimer les covariables, une à la fois, ce qui entraîne une amélioration du BIC.

La régression pas à pas peut être une procédure statistique très dangereuse car ce n'est pas une procédure de sélection de modèle optimale. La méthode peut conduire à une très mauvaise sélection de modèles car elle ne vous protège pas contre des problèmes tels que les comparaisons multiples.


la source
Merci. Et qu'en est-il du «retour / avant»?
Mahmoud
Que voulez-vous dire en arrière / en avant?
L'une des méthodes de stpewise () dans R est 'backward / forward'! Est-ce une combinaison des deux?
Mahmoud
2
Oh désolé, maintenant je comprends ce que vous demandez. Oui, si vous spécifiez les deux, cela s'applique à la fois vers l'avant et vers l'arrière et choisit celui avec le meilleur critère.