Je connais LASSO, la régularisation de type crête et filet élastique dans les modèles de régression linéaire.
Question:
- Ce type d'estimation pénalisée (ou similaire) peut-il être appliqué à la modélisation ARIMA (avec une partie MA non vide)?
Dans la construction de modèles ARIMA, il semble habituel de considérer un ordre de décalage maximum présélectionné ( , ) puis de choisir un ordre optimal et q \ leqslant q_ {max} par exemple en minimisant AIC ou AICc. Mais la régularisation pourrait-elle être utilisée à la place? q m a x p ⩽ p m a x q ⩽ q m a x
Mes autres questions sont les suivantes:
- Pourrions-nous inclure tous les termes jusqu'à ( , ) mais pénaliser la taille des coefficients (potentiellement jusqu'à zéro)? Serait-ce logique?
- Si c'est le cas, cela a-t-il été implémenté dans R ou dans un autre logiciel? Sinon, quel était le problème?
Un article quelque peu lié peut être trouvé ici .
time-series
arima
lasso
regularization
ridge-regression
Richard Hardy
la source
la source
Réponses:
Répondre à la question 1.
Chen & Chan «Subset ARMA selection via the adaptive Lasso» (2011) * utilisent une solution de contournement pour éviter l'estimation de la probabilité maximale de calcul exigeante. Citant le papier, ils
Facultativement, ils suggèrent une estimation du maximum de vraisemblance et des diagnostics de modèle pour le ou les modèles ARMA du sous-ensemble sélectionné.
Wilms et al. «Identification et estimation clairsemées de moyennes mobiles auto-régressives vectorielles de grande dimension» (2017) font encore plus que ce que je demandais. Au lieu d'un modèle ARIMA univarié, ils prennent un vecteur ARMA (VARMA) dans des dimensions élevées, et ils utilisent une pénalité pour l'estimation et la sélection de l'ordre de décalage. Ils présentent l'algorithme d'estimation et développent des résultats asymptotiques.L1
En particulier, ils utilisent une procédure en deux étapes. Considérons un modèle qui doit être estimé, mais le décalage les ordres et sont inconnus. p q
À l'étape 1, ils approximent le modèle VARMA par un modèle VAR d'ordre élevé et l'estiment à l'aide d'un estimateur hiérarchique VAR qui applique une pénalité de lasso de groupe hiérarchique basée sur le décalage aux paramètres autorégressifs.⌊1.5T−−√⌋ ||y−y^||F2
ε^:=y−y^
(L'ordre de décalage est défini sur . Les équations du modèle sont estimées conjointement et la norme Frobenius des erreurs est minimisée avec un groupe hiérarchique -lasso sur les coefficients de régression.) Ils obtiennent des résidus à utiliser comme proxy pour les vraies erreurs de l'étape 2.
À l'étape 2, ils estiment un modèle VARX où X représente les résidus décalés de l'étape 1. Autrement dit, ils minent un modèle VARMA mais utilisent des résidus estimés à la place des vraies erreurs, ce qui permet d'appliquer à nouveau le même estimateur (groupe-lasso hiérarchique) comme dans Stage 1. ( et sont définis comme .)
L'approche de Wilms et al. est implémenté dans le package R "bigtime" .
Les références
* Merci à @hejseb pour le lien.
la source