J'essaie d'estimer un modèle de choix professionnel avec trois choix. Existe-t-il des alternatives à l'utilisation de la régression logistique multinomiale lors de la gestion de ces résultats catégoriels non ordonnés?
Lorsqu'il s'agit de variables dépendantes binaires, il semble y avoir plusieurs choix tels que le modèle LPM ainsi que le modèle probit binaire et le modèle logit. Lorsqu'elle traite de variables catégorielles non ordonnées, la littérature continue cependant de recommander le modèle logit multinomial sans le comparer à des alternatives.
Réponses:
Il existe une variété de modèles disponibles pour modéliser des modèles multinomiaux.
Je recommande Cameron & Trivedi Microeconometrics Using Stata pour une introduction facile et excellente ou jetez un œil aux diapositives de la conférence Imbens & Wooldridge ou ici qui sont disponibles en ligne.
Les modèles largement utilisés comprennent:
régression logistique multinomiale ou mlogit dans Stata
logit conditionnel multinomial (permet d'inclure facilement non seulement des prédicteurs spécifiques à l'individu mais aussi au choix) ou un asclogit dans Stata
logit imbriqué (assouplissez l' indépendance vis-à-vis des hypothèses alternatives non pertinentes (IIA) en regroupant / classant les choix de manière hiérarchique) ou nlogit dans Stata
Logit mixte (assouplit l'hypothèse IIA en supposant, par exemple, des paramètres distribués normaux) ou Mixlogit dans Stata.
modèle probit multinomial (peut assouplir davantage l'hypothèse IIA mais vous devriez avoir des prédicteurs spécifiques à choix disponibles) logit mixte (assouplit l'hypothèse IIA en supposant par exemple des paramètres normaux distribués), l' utilisation asmprobit dans Stata (mprobit ne permet pas d'utiliser des prédicteurs spécifiques au choix mais vous devez les utiliser pour assouplir l’assomption IIA )
la source
Si vous voulez des options très différentes d'une régression logistique, vous pouvez utiliser un réseau neuronal. Par exemple, le
nnet
package de R a unemultinom
fonction. Ou vous pouvez utiliser une forêt aléatoire (randomForest
package R , et autres). Et il existe plusieurs autres alternatives de Machine Learning, bien que les options comme un SVM aient tendance à ne pas être bien calibrées, ce qui rend leurs sorties inférieures - à mon avis - à une régression logistique.[En fait, un logit est probablement utilisé sous le capot par les neurones du réseau neuronal. C'est donc assez différent, mais pas tout à fait différent en même temps.]
la source
En outre, pensez que les réseaux neuronaux (avec activation softmax), les arbres de décision (ou les forêts aléatoires) ne nécessitent pas que l'hypothèse IIA soit satisfaite compte tenu du manque de fiabilité de ces tests concernant la vérification de l'hypothèse IIA. Cela pourrait donc être un avantage par rapport à la logistique multinomiale si nous ne sommes concernés que par des prédictions.
Alternativement, plusieurs modèles logistiques peuvent être construits pour les catégories K-1 avec la Kème catégorie comme référence. Cela permet également de brancher différents prédicteurs pour chacune des équations contrairement au multinomial
la source