Je travaille beaucoup avec les modèles de séries temporelles financières, principalement AR (I) MA et Kalman.
Un problème auquel je continue de faire face est la fréquence d'échantillonnage. Au départ, je pensais que si on m'offrait la possibilité d'échantillonner plus fréquemment à partir d'un processus sous-jacent, je devrais échantillonner aussi souvent que possible afin d'avoir un nombre beaucoup plus élevé d'échantillons, donc mes paramètres de modèle auront moins de variation.
En réalité, cette idée ne s'est pas avérée bonne. Ce qui s'est passé, c'est que si le processus sous-jacent ne présente pas suffisamment de variations, l'augmentation de la fréquence d'échantillonnage signifiait en fait obtenir beaucoup de (mêmes) valeurs répétitives. Et construire un modèle sur de telles valeurs donne des modèles avec de très très petits coefficients de modèle qui ne prédisent pas bien dans le futur (bien sûr, la définition de "bien" est subjective et une fréquence accrue nécessite de prévoir beaucoup plus d'échantillons dans le futur pour atteindre le même pas de temps dans un réglage de fréquence plus faible). Le modèle apprend ce qu'il rencontre le plus - une ligne plate.
Je voulais faire une approche d'échantillonnage adaptatif, c'est-à-dire échantillonner plus fréquemment lorsqu'il y a variation et moins fréquemment lorsqu'il n'y en a pas. Mais ce n'est pas facile. Tout d'abord, le type de biais que j'introduisais n'est pas clair (et variera selon la façon dont je déclenche l'échantillon / saut). Deuxièmement, les modèles de séries temporelles comme ARIMA ne sont pas bien adaptés aux étapes d'échantillonnage inégales.
Existe-t-il un bon moyen de résoudre ce problème? Cela me fait également me demander comment on parvient à une transition transparente entre les modèles temporels continus et les modèles temporels discrets si les modèles sont si fortement affectés par la fréquence d'échantillonnage (en particulier lorsque les pas de temps deviennent de plus en plus petits)? Tout pointeur vers des ressources externes sera également apprécié.
Merci
la source
Réponses:
Les ARIMA peuvent ne pas être bien adaptés à votre objectif, mais les modèles d'espace d'état le sont: vous pouvez échantillonner aussi souvent que vous le souhaitez (et en principe, mieux c'est) et effectuer une mise à jour temporelle à intervalles fixes, comme la dynamique de votre processus supposé peut exiger. L'une des beautés des modèles d'espace d'état est que le processus d'observation est distinct du processus du modèle, et des intervalles de temps séparés peuvent être utilisés pour chacun.
la source
J'aimerais vous signaler l'article
Ghysels, E, P. Santa-Clara et R. Valkanov (2006): "Prédire la volatilité: tirer le meilleur parti des données de retour échantillonnées à différentes fréquences", Journal of Econometrics, vol. 131, p. 59-95.
Les auteurs utilisent eux-mêmes une technique appelée MIDAS (échantillonnage de données mixtes) afin de comparer les estimations de la volatilité basées sur des données échantillonnées à différentes fréquences. Certes, ce n'est pas exactement ce que vous cherchiez, mais les auteurs affirment que leur technique est appropriée pour comparer les résultats de manière significative. Cela vous donne peut-être au moins une deuxième façon d'analyser vos données. Il semble qu'en particulier dans le domaine de la macroéconomie, cette approche ait suscité un certain intérêt.
la source
Cela pourrait fonctionner dans l'échantillon mais serait difficile à utiliser pour les prédictions hors échantillon, à moins que vous ne trouviez comment prédire la variabilité elle-même (et cela n'est pas nécessairement impossible). De plus, si vous rencontrez des régimes à faible variation (ou pas de variation du tout) suivis de régimes à forte variation, vous aurez naturellement besoin de modèles distincts pour les deux; avoir un modèle pour l'ensemble du processus et échantillonner à des intervalles / fréquences inégaux semblerait intuitivement sous-optimal. Vous avez mentionné les modèles de changement de régime (en répondant à mon commentaire), et c'est une bonne illustration de ce dont vous pourriez avoir besoin ici.
Ce n'est pas tout à fait vrai. Dans un contexte de séries chronologiques, c'est souvent la durée plutôt que le nombre d'observations qui compte. Par exemple, 120 observations mensuelles (couvrant 10 ans) constituent un échantillon plus informatif que 209 observations hebdomadaires (couvrant 4 ans) lors du test de présence d'une racine unitaire; voir cet article de blog de Dave Giles et la dernière référence. Ou considérez un cas limite où vous échantillonnez si fréquemment que vous mesurez essentiellement la même chose plusieurs fois. Cela augmenterait la taille de votre échantillon mais n'apporterait pas de nouvelles informations, conduisant à une fausse impression de précision d'estimation. Alors peut-être ne devriez-vous pas passer trop de temps à augmenter la fréquence d'échantillonnage et à construire des modèles correspondants?
la source