Effets d'échantillonnage sur les modèles de séries chronologiques

9

Je travaille beaucoup avec les modèles de séries temporelles financières, principalement AR (I) MA et Kalman.

Un problème auquel je continue de faire face est la fréquence d'échantillonnage. Au départ, je pensais que si on m'offrait la possibilité d'échantillonner plus fréquemment à partir d'un processus sous-jacent, je devrais échantillonner aussi souvent que possible afin d'avoir un nombre beaucoup plus élevé d'échantillons, donc mes paramètres de modèle auront moins de variation.

En réalité, cette idée ne s'est pas avérée bonne. Ce qui s'est passé, c'est que si le processus sous-jacent ne présente pas suffisamment de variations, l'augmentation de la fréquence d'échantillonnage signifiait en fait obtenir beaucoup de (mêmes) valeurs répétitives. Et construire un modèle sur de telles valeurs donne des modèles avec de très très petits coefficients de modèle qui ne prédisent pas bien dans le futur (bien sûr, la définition de "bien" est subjective et une fréquence accrue nécessite de prévoir beaucoup plus d'échantillons dans le futur pour atteindre le même pas de temps dans un réglage de fréquence plus faible). Le modèle apprend ce qu'il rencontre le plus - une ligne plate.

Je voulais faire une approche d'échantillonnage adaptatif, c'est-à-dire échantillonner plus fréquemment lorsqu'il y a variation et moins fréquemment lorsqu'il n'y en a pas. Mais ce n'est pas facile. Tout d'abord, le type de biais que j'introduisais n'est pas clair (et variera selon la façon dont je déclenche l'échantillon / saut). Deuxièmement, les modèles de séries temporelles comme ARIMA ne sont pas bien adaptés aux étapes d'échantillonnage inégales.

Existe-t-il un bon moyen de résoudre ce problème? Cela me fait également me demander comment on parvient à une transition transparente entre les modèles temporels continus et les modèles temporels discrets si les modèles sont si fortement affectés par la fréquence d'échantillonnage (en particulier lorsque les pas de temps deviennent de plus en plus petits)? Tout pointeur vers des ressources externes sera également apprécié.

Merci

time-series sampling arima Cagdas Ozgenc
la source

1

«échantillonner plus fréquemment lorsqu'il y a des variations et moins fréquemment lorsqu'il n'y en a pas» pourrait fonctionner dans l'échantillon, mais cela serait difficile à utiliser pour les prévisions hors échantillon. Êtes-vous intéressé par le premier ou le dernier? De plus, si vous rencontrez des régimes à faible variation (ou pas de variation du tout) suivis de régimes à forte variation, vous aurez naturellement besoin de modèles distincts pour les deux. Sinon, vous auriez un modèle pour l'ensemble du processus et l'échantillonnage à des intervalles / fréquences inégaux semblerait intuitivement sous-optimal. En outre, le dernier paragraphe est considéré comme une question autonome, à mon humble avis.

Richard Hardy

1

En outre, vous pouvez envisager de rendre votre titre plus informatif, quelque chose pour indiquer l'idée d'un échantillonnage plus fréquent aux points de grands mouvements.

Richard Hardy

1

@RichardHardy J'ai pensé aux modèles de changement de régime. Cependant, ils sont notoirement difficiles à former. Savez-vous comment identifier et former les modèles de changement de régime de manière dynamique (découverte automatiquement sans spécifier à l'avance le point de changement de régime)? Pouvez-vous montrer quelques pointeurs?

Cagdas Ozgenc

1

Les ARIMA peuvent ne pas être bien adaptés à votre objectif, mais les modèles d'espace d'état le sont: vous pouvez échantillonner aussi souvent que vous le souhaitez (et en principe, mieux c'est) et effectuer une mise à jour temporelle à intervalles fixes, comme la dynamique de votre processus supposé peut exiger. L'une des beautés des modèles d'espace d'état est que le processus d'observation est distinct du processus du modèle, et des intervalles de temps séparés peuvent être utilisés pour chacun.

F. Tusell
la source

Cela ne résout pas mon problème. Même dans un modèle d'espace d'état, les coefficients du modèle doivent d'abord être déterminés. La méthodologie de mise à jour de l'espace d'états s'applique au vecteur d'état lui-même et non aux matrices de coefficients.

Cagdas Ozgenc

Je ne comprends pas très bien votre commentaire. Si vous convertissez votre modèle sous forme d'espace d'état, vous pouvez calculer la probabilité (en supposant la normalité) à l'aide du filtre Kalman, quelle que soit la fréquence d'échantillonnage. En maximisant cette probabilité, vous pouvez estimer les paramètres dans les matrices système.

F. Tusell

C'est vrai si vous connaissez le modèle à l'avance. Lorsque toutes les matrices de transition d'état et les matrices de covariance du bruit sont connues, vous pouvez effectuer les mises à jour, et vous pouvez le faire en sautant les pas de temps. Lorsque vous recevez uniquement les données, vous devez déduire les matrices de transition. Et ces matrices différeront entre une période de forte volatilité et une période de faible volatilité.

Cagdas Ozgenc

1

J'aimerais vous signaler l'article

Ghysels, E, P. Santa-Clara et R. Valkanov (2006): "Prédire la volatilité: tirer le meilleur parti des données de retour échantillonnées à différentes fréquences", Journal of Econometrics, vol. 131, p. 59-95.

Les auteurs utilisent eux-mêmes une technique appelée MIDAS (échantillonnage de données mixtes) afin de comparer les estimations de la volatilité basées sur des données échantillonnées à différentes fréquences. Certes, ce n'est pas exactement ce que vous cherchiez, mais les auteurs affirment que leur technique est appropriée pour comparer les résultats de manière significative. Cela vous donne peut-être au moins une deuxième façon d'analyser vos données. Il semble qu'en particulier dans le domaine de la macroéconomie, cette approche ait suscité un certain intérêt.

Dr_Be
la source

1

Je vous remercie. Le problème n'est pas spécifique aux séries temporelles financières. Prenez n'importe quelle situation expérimentale et échantillonnez avec une fréquence élevée dans la dimension temporelle. Vous vous retrouvez avec une longue ligne plate et les modèles apprennent cela, une ligne plate. Parce que les échantillons répétés surpeuplent les échantillons significatifs qui reflètent réellement la variation du processus sous-jacent. C'est vraiment problématique, et je ne trouve pas grand-chose lié à ce sujet.

Cagdas Ozgenc

0

échantillonner plus fréquemment en cas de variation et moins fréquemment en l'absence de

Cela pourrait fonctionner dans l'échantillon mais serait difficile à utiliser pour les prédictions hors échantillon, à moins que vous ne trouviez comment prédire la variabilité elle-même (et cela n'est pas nécessairement impossible). De plus, si vous rencontrez des régimes à faible variation (ou pas de variation du tout) suivis de régimes à forte variation, vous aurez naturellement besoin de modèles distincts pour les deux; avoir un modèle pour l'ensemble du processus et échantillonner à des intervalles / fréquences inégaux semblerait intuitivement sous-optimal. Vous avez mentionné les modèles de changement de régime (en répondant à mon commentaire), et c'est une bonne illustration de ce dont vous pourriez avoir besoin ici.

Je devrais échantillonner aussi souvent que possible afin d'avoir un nombre beaucoup plus important d'échantillons, donc les paramètres de mon modèle auront moins de variation.

Ce n'est pas tout à fait vrai. Dans un contexte de séries chronologiques, c'est souvent la durée plutôt que le nombre d'observations qui compte. Par exemple, 120 observations mensuelles (couvrant 10 ans) constituent un échantillon plus informatif que 209 observations hebdomadaires (couvrant 4 ans) lors du test de présence d'une racine unitaire; voir cet article de blog de Dave Giles et la dernière référence. Ou considérez un cas limite où vous échantillonnez si fréquemment que vous mesurez essentiellement la même chose plusieurs fois. Cela augmenterait la taille de votre échantillon mais n'apporterait pas de nouvelles informations, conduisant à une fausse impression de précision d'estimation. Alors peut-être ne devriez-vous pas passer trop de temps à augmenter la fréquence d'échantillonnage et à construire des modèles correspondants?

Richard Hardy
la source

Le poste ne répond pas vraiment à la question. Le changement de régime est probablement la voie à suivre.

Cagdas Ozgenc

Effets d'échantillonnage sur les modèles de séries chronologiques

Réponses: