Sélection de modèle avec régression logistique Firth

21

Dans un petit ensemble de données ( ) avec lequel je travaille, plusieurs variables me donnent une prédiction / séparation parfaite . J'utilise donc la régression logistique de Firth pour traiter le problème.n100

Si je sélectionne le meilleur modèle par AIC ou BIC , dois-je inclure le terme de pénalité Firth dans la probabilité lors du calcul de ces critères d'information?

StasK
la source
2
Pourriez-vous expliquer pourquoi cela est inévitable, car la sélection des variables n'aide pas à résoudre le problème «trop de variables, trop petite taille d'échantillon»?
Frank Harrell
4
C'est aussi mauvais que possible.
Frank Harrell
1
Avez-vous envisagé de traiter ce problème d'inférence bayésienne? La régression logistique Firth est équivalente à MAP avec les jeffreys avant. Vous pouvez utiliser l'approximation entièrement laplace pour évaluer les probabilités marginales - qui est comme un BIC ajusté (similaire à AICc)
probabilités
1
@user, Parce que de telles variables ne prédisent généralement qu'une poignée de cas, ce qui est irréproductible: la vraie probabilité pour cette cellule peut être proche de 90%, mais avec seulement deux cas, vous en obtiendrez deux dans 81% des cas. .
StasK
1
Lien pour télécharger l'article de K&K (1996) trouvé sur Google Scholar, bemlar.ism.ac.jp/zhuang/Refs/Refs/kitagawa1996biometrika.pdf
Alecos Papadopoulos

Réponses:

1

Si vous souhaitez justifier l'utilisation du BIC: vous pouvez remplacer la probabilité maximale par l'estimation maximale a posteriori (MAP) et le critère de type 'BIC' résultant reste asymptotiquement valide (dans la limite de la taille de l'échantillon ). Comme mentionné par @probabilityislogic, la régression logistique de Firth équivaut à utiliser un a priori de Jeffrey (donc ce que vous obtenez de votre ajustement de régression est le MAP).n

Le BIC est un critère pseudo-bayésien qui est (grossièrement) dérivé en utilisant une expansion en série de Taylor de la vraisemblance marginale autour de l'estimation du maximum de vraisemblance . Ainsi, il ignore le précédent, mais l'effet de ce dernier disparaît à mesure que l'information se concentre sur la probabilité.

py(y)=L(θ;y)π(θ)dθ
θ^

Comme remarque secondaire, la régression de Firth élimine également le biais de premier ordre dans les familles exponentielles.

lbelzile
la source