Régularisation L2 vs retrait d'effets aléatoires

8

Une propriété fondamentale de la régression à effets aléatoires est que les estimations d'interception aléatoire sont "rétrécies" vers la moyenne globale de la réponse en fonction de la variance relative de chaque estimation.

U^j=ρjy¯j+(1ρj)y¯
ρj=τ2/(τ2+σ2/nj).

C'est également le cas des modèles mixtes linéaires généralisés (GLMM) tels que la régression logistique.

En quoi ce retrait est-il meilleur que / différent de la régression logistique à effets fixes avec un codage à chaud des variables ID et un retrait via la régularisation L2?

Dans un modèle à effets fixes, je peux contrôler la quantité de retrait en modifiant ma pénalité, , de régularisation L2 tandis que dans un modèle à effets aléatoires, je n'ai aucun contrôle sur la quantité de retrait. Serait-il exact de dire "utiliser le modèle à effets aléatoires si l'objectif est l'inférence mais utiliser le modèle à effets fixes si l'objectif est la prédiction"?λ

Paman Gujral
la source

Réponses:

8

C'est un peu simpliste. Le rétrécissement dans une régression à effets mixtes est pondéré par l'équilibre global entre "classes" / "groupes" dans les structures à effets aléatoires, donc ce n'est pas que vous n'avez pas le choix, mais plutôt que la taille et la force de votre groupe la preuve choisit. (Considérez-le comme une grande moyenne pondérée). De plus, les modèles à effets mixtes sont très utiles lorsque vous avez un certain nombre de groupes mais seulement très peu de données dans chaque groupe: la structure globale et la mise en commun partielle permettent de meilleures inférences même au sein de chaque groupe!

Il existe également des variantes LASSO (régularisé L1), faîtière (régularisé L2) et filet élastique (combinaison de régularisation L1 et L2) de modèles mixtes. En d'autres termes, ces choses sont orthogonales. En termes bayésiens, vous obtenez un retrait à effets mixtes via votre structure de modèle hiérarchique / multiniveaux et une régularisation via votre choix de prior sur la distribution des coefficients du modèle.

La confusion vient peut-être de l'utilisation fréquente de la régularisation dans le "machine learning" (où la prédiction est le but) mais de l'utilisation fréquente d'effets mixtes dans les "statistiques" (où l'inférence est le but), mais c'est plus un effet secondaire des autres aspects des ensembles de données communs dans ces domaines (par exemple la taille) et problèmes de calcul. Les modèles à effets mixtes sont généralement plus difficiles à ajuster, donc si un modèle à effets fixes régularisé qui ignore une certaine structure des données est assez bon pour les prévisions dont vous avez besoin, il peut ne pas être utile d'adapter un modèle à effets mixtes. Mais si vous devez faire des inférences sur vos données, ignorer sa structure serait une mauvaise idée.

Livius
la source
réponse précise et précise.
Subhash C. Davar
Merci Livius. Le rétrécissement des effets aléatoires est-il similaire à la réalisation de Bayes empiriques? Si oui, serait-il encore logique de rétrécir davantage un modèle à effets aléatoires avec régularisation L2 / Bayésien en haut? Mon objectif est de classer les groupes par BLUP et d'utiliser le classement dans un modèle de prédiction de la prochaine étape.
Paman Gujral
Je construis un modèle prédictif sur un ensemble de données de soins de santé au niveau de l'épisode qui contient plusieurs épisodes hospitaliers par ID de membre. La plupart des membres ont moins de 5 épisodes. Je pense que c'est un cas où une régression au lasso ou à la crête appliquée aux effets fixes, plus un effet aléatoire pour le champ ID membre, serait appropriée.
RobertF
1
@PamanGujral, vous voudrez peut-être regarder "Estimation empirique bayésienne des paramètres d'effets aléatoires dans les modèles de régression logistique à effets mixtes" par Ten Have et Localio
AdamO
"Les modèles à effets mixtes sont généralement plus difficiles à adapter ..." Si le but est de tenir compte de la corrélation entre les enregistrements partageant le même identifiant et qu'il existe des milliers ou des millions d'identifiants uniques, l'ajout d'un terme d'interception aléatoire simple à la formule de régression à l'aide de la formule indiquée dans la question du PO semble raisonnable et assez simple. premier pas. Vous estimez seulement deux paramètres au lieu d'un terme à effet fixe pour chaque ID unique moins un, ce qui permet d'économiser beaucoup plus de degrés de liberté.
RobertF