J'ai besoin de prévoir les 4 variables suivantes pour la 29e unité de temps. J'ai environ 2 ans de données historiques, où 1 et 14 et 27 sont tous la même période (ou période de l'année). Au final, je fais une décomposition de style Oaxaca-Blinder sur , w d , w c et p .
time W wd wc p
1 4.920725 4.684342 4.065288 .5962985
2 4.956172 4.73998 4.092179 .6151785
3 4.85532 4.725982 4.002519 .6028712
4 4.754887 4.674568 3.988028 .5943888
5 4.862039 4.758899 4.045568 .5925704
6 5.039032 4.791101 4.071131 .590314
7 4.612594 4.656253 4.136271 .529247
8 4.722339 4.631588 3.994956 .5801989
9 4.679251 4.647347 3.954906 .5832723
10 4.736177 4.679152 3.974465 .5843731
11 4.738954 4.759482 4.037036 .5868722
12 4.571325 4.707446 4.110281 .556147
13 4.883891 4.750031 4.168203 .602057
14 4.652408 4.703114 4.042872 .6059471
15 4.677363 4.744875 4.232081 .5672519
16 4.695732 4.614248 3.998735 .5838578
17 4.633575 4.6025 3.943488 .5914644
18 4.61025 4.67733 4.066427 .548952
19 4.678374 4.741046 4.060458 .5416393
20 4.48309 4.609238 4.000201 .5372143
21 4.477549 4.583907 3.94821 .5515663
22 4.555191 4.627404 3.93675 .5542806
23 4.508585 4.595927 3.881685 .5572687
24 4.467037 4.619762 3.909551 .5645944
25 4.326283 4.544351 3.877583 .5738906
26 4.672741 4.599463 3.953772 .5769604
27 4.53551 4.506167 3.808779 .5831352
28 4.528004 4.622972 3.90481 .5968299
Je crois que peut être approximé par p ⋅ w d + ( 1 - p ) ⋅ w c plus erreur de mesure, mais vous pouvez voir que W dépasse toujours considérablement cette quantité en raison de déchets, d'erreur d'approximation ou de vol.
Voici mes 2 questions.
Ma première pensée a été d'essayer une autorégression vectorielle sur ces variables avec 1 décalage et une variable de temps et de période exogène, mais cela semble être une mauvaise idée étant donné le peu de données dont je dispose. Existe-t-il des méthodes de séries chronologiques qui (1) fonctionnent mieux face à la «micro-numérosité» et (2) pourraient exploiter le lien entre les variables?
D'un autre côté, les modules des valeurs propres pour le VAR sont tous inférieurs à 1, donc je ne pense pas avoir à me soucier de la non-stationnarité (bien que le test de Dickey-Fuller suggère le contraire). Les prévisions semblent pour la plupart conformes aux projections d'un modèle univarié flexible avec une tendance temporelle, à l'exception de et , qui sont plus faibles. Les coefficients sur les décalages semblent pour la plupart raisonnables, bien qu'ils soient pour la plupart insignifiants. Le coefficient de tendance linéaire est significatif, de même que certains des mannequins de la période. Y a-t-il encore des raisons théoriques de préférer cette approche plus simple au modèle VAR?
Divulgation complète: j'ai posé une question similaire sur Statalist sans réponse.
la source
Réponses:
Je comprends que cette question est posée ici depuis des années, mais les idées suivantes peuvent néanmoins être utiles:
S'il existe des liens entre les variables (et que la formule théorique ne fonctionne pas aussi bien), l'ACP peut être utilisée pour rechercher des dépendances (linéaires) de manière systématique. Je montrerai que cela fonctionne bien pour les données fournies dans cette question.
Étant donné qu'il n'y a pas beaucoup de données (112 chiffres au total), seuls quelques paramètres du modèle peuvent être estimés ( par exemple, l' ajustement des effets saisonniers complets n'est pas une option), et essayer un modèle personnalisé peut être logique.
Voici comment je ferais une prévision, en suivant ces principes:
Étape 1. Nous pouvons utiliser PCA pour révéler les dépendances dans les données. Utilisation de R, avec les données stockées dans
x
:Faire de l’APC consistait à trouver un4 × 4 matrice orthogonale. L'espace de ces matrices est à 6 dimensions, nous avons donc estimé 6 paramètres. (Puisque nous n'utilisons vraiment que PC1 ci-dessous, cela peut être moins de paramètres "efficaces".)
Étape 2. Il y a une tendance claire dans PC1:
Je crée une copie des partitions PC avec cette tendance supprimée:
Le traçage des scores des autres PC ne révèle aucune tendance claire, je les laisse donc inchangés.
Les scores PC étant centrés, la tendance passe par le centre de masse de l'échantillon PC1 et l'ajustement de la tendance ne correspond qu'à l'estimation d'un paramètre.
Étape 3. Un diagramme de dispersion de paire ne montre aucune structure claire, donc je modélise les PC comme étant indépendants:
Étape 4. Il y a une périodicité claire dans PC1, avec un décalage 13 (comme suggéré par la question). Cela peut être vu de différentes manières. Par exemple, l'autocorrélation du décalage 13 apparaît comme étant significativement différente de 0 dans un corrélogramme:
(La périodicité est visuellement plus frappante lors du traçage des données avec une copie décalée.)
Étant donné que nous voulons maintenir le nombre de paramètres estimés faible et que le corrélogramme montre le décalage 13 comme le seul décalage avec une contribution significative, je modéliserai PC1 commey( 1 )t + 13= α13y( 1 )t+ σεt + 13 , où le εt sont indépendants et standard normalement distribués (c'est-à-dire qu'il s'agit d'un processus AR (13) avec la plupart des coefficients fixés à 0). Un moyen simple d'estimerα13 et σ utilise la
lm()
fonction:Comme test de plausibilité, je trace les données fournies (noir), ainsi qu'une trajectoire aléatoire de mon modèle pour PC1 (bleu), s'étalant sur un an:
Le morceau de chemin bleu et simulé ressemble à une continuation raisonnable des données. Les corrélogrammes pour PC2 et PC3 ne montrent aucune corrélation significative, donc je modélise ces composants comme du bruit blanc. PC4 montre des corrélations, mais contribue si peu à la variance totale qu'il semble ne pas valoir la peine d'être modélisé, et je modélise également cette composante sous forme de bruit blanc.
Ici, nous avons ajusté deux autres paramètres. Cela nous amène à un total de neuf paramètres dans le modèle (y compris l'ACP), ce qui ne semble pas absurde lorsque nous avons commencé avec des données composées de 112 nombres.
Prévoir. Nous pouvons obtenir une prévision numérique en omettant le bruit (pour obtenir la moyenne) et en inversant l'ACP:
Les bandes d'incertitude peuvent être obtenues soit analytiquement soit simplement en utilisant Monte Carlo:
Le graphique montre les données réelles pourW , ainsi que des bandes d'incertitude de 60% (trois lignes internes) et de 95% (deux lignes externes) pour une prévision utilisant le modèle ajusté.
la source