Les modèles pénalisés peuvent être utilisés pour estimer les modèles où le nombre de paramètres est égal ou même supérieur à la taille de l'échantillon. Cette situation peut se produire dans les modèles log-linéaires de grandes tables clairsemées de données catégorielles ou de dénombrement. Dans ces paramètres, il est souvent également souhaitable ou utile de réduire les tableaux en combinant les niveaux d'un facteur où ces niveaux ne se distinguent pas en termes d'interaction avec d'autres facteurs. Deux questions:
- Existe-t-il un moyen d'utiliser des modèles pénalisés tels que LASSO ou un filet élastique pour tester la pliabilité des niveaux au sein de chaque facteur?
- Si la réponse à la première question est oui, cela peut-il et devrait-il être organisé de telle sorte que l'effondrement des niveaux et l'estimation des coefficients du modèle se produisent en une seule étape?
Réponses:
C'est possible. Pour ce faire, nous pouvons utiliser une variante du lasso fusionné .
Nous pouvons utiliser l'estimateur
Notez que est la fonction de perte pour log-linear des modèles.−1n∑ni=1(yiβTxi−eβTxi)
Cela encourage les coefficients au sein d'un groupe à être égaux. Cette égalité de coefficients équivaut à réduire ensemble les niveaux et du facteur. Dans le cas où , cela revient à réduire le niveau avec le niveau de référence. Les paramètres de réglage peuvent être traités comme constants, mais s'il n'y a que quelques facteurs, il pourrait être préférable de les traiter séparément.jth kth β^j=0 jth λg
L'estimateur est un minimiseur d'une fonction convexe, il peut donc être calculé efficacement via des solveurs arbitraires. Il est possible que si un facteur a de très nombreux niveaux, ces différences par paires deviendront incontrôlables --- dans ce cas, il sera nécessaire de connaître plus de structure sur les modèles possibles d'effondrement.
Notez que tout cela est accompli en une seule étape! C'est ce qui rend les estimateurs de type lasso si cool!
Une autre approche intéressante consiste à utiliser l'estimateur OSCAR, qui est comme ci-dessus sauf la pénalité est remplacée par .∥[−11]⋅[βiβj]′∥1 ∥[βiβj]∥∞
la source