Création d'une série chronologique comprenant plusieurs observations pour chaque date

11

J'essaie d'appliquer une série chronologique aux données échantillonnées trimestriellement (biomasse animale) sur une période de 10 ans avec 3 répétitions par trimestre. Donc 40 dates mais 120 observations au total.

J'ai lu SARIMA'a dans Shumway et Stoffer's Time Series Analysis et ses applications, ainsi que survolé Woodward, et. l'analyse appliquée des séries chronologiques d'al., et je crois comprendre que chaque modèle est basé sur une seule observation à chaque point de la série chronologique.

QUESTION: Comment puis-je inclure la variation dans chaque observation dans mon modèle? Je pourrais construire une série sur la moyenne, mais je perdrais la variation à chaque observation et je pense que c'est essentiel pour ma compréhension de ce qui se passe.


la source
SARIMA peut être étendu aux cas multivariés, ce qui pourrait vous convenir. Le mot clé dans ce cas est VAR. Cela signifie que vous observez un vecteur de nombres au lieu d'un nombre pour chaque période.
mpiktas

Réponses:

4

Selon ce que vous entendez exactement par «3 répétitions par trimestre», un modèle de données de panel ( wikipedia ) peut avoir du sens. Cela signifie que vous prenez trois mesures par quart, une de chacune des trois sources distinctes qui restent les mêmes au fil du temps. Vos données ressembleraient à quelque chose comme:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Si c'est ce que vous regardez, il existe un certain nombre de modèles pour travailler avec des données de panneau. Voici une présentation décente qui couvre certains des R de base que vous utiliseriez pour consulter les données du panneau. Ce document va un peu plus en profondeur, bien que d'un point de vue économétrique.

Cependant, si vos données ne correspondent pas tout à fait aux méthodologies de données de panel, il existe d'autres outils disponibles pour les "données groupées". Une définition de cet article (pdf) :

La mise en commun des données signifie une analyse statistique utilisant plusieurs sources de données relatives à plusieurs populations. Il englobe la moyenne, les comparaisons et les interprétations courantes de l'information. Différents scénarios et problèmes se posent également selon que les sources de données et les populations concernées sont identiques / similaires ou différentes.

Comme vous pouvez le voir, à partir de cette définition, les techniques que vous allez utiliser dépendront de ce que vous attendez exactement de vos données.

Si je devais vous suggérer un point de départ, en supposant que vos trois tirages pour chaque trimestre sont cohérents dans le temps, je dirais commencer par utiliser un estimateur à effets fixes (également connu sous le nom d'estimateur intra) avec un modèle de données de panel de votre Les données.

Pour mon exemple ci-dessus, le code ressemblerait à quelque chose comme:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Ce qui nous donne la sortie suivante:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Ici, nous pouvons clairement voir l'effet du temps dans le coefficient sur la variable du trimestre, ainsi que l'effet d'être dans le groupe B ou le groupe C (par opposition au groupe A).

J'espère que cela vous indique quelque part dans la bonne direction.

Wilduck
la source
3

Je pense que c'est intéressant. Ma suggestion serait de faire la moyenne des trois points de données pour obtenir une série temporelle fluide pour s'adapter. Comme vous le faites remarquer, si vous faites cela en ignorant que vous avez pris en moyenne trois observations, vous jetez des informations. Mais pour chaque point dans le temps, vous pouvez additionner les écarts au carré de la moyenne. Regroupez ces sommes de carrés sur toutes les périodes et divisez par n-1 où n est le nombre total de points utilisés dans le calcul. Si vous avez un modèle avec une structure de séries chronologiques (par exemple tendances, composante saisonnière, structure de dépendance AR), ce calcul pourrait être une estimation indépendante et non biaisée de la variance du terme d'erreur dans le modèle.

Michael R. Chernick
la source
1
3nn3n2nn-13n-1