À quels problèmes dois-je faire attention lors de la combinaison de plusieurs séries chronologiques?

Disons que j'ai un certain nombre de séries chronologiques, par exemple un certain nombre d'enregistrements de température de diverses stations dans une région. Je veux obtenir un enregistrement de température unique pour toute la région avec lequel je pourrais décrire les aspects du climat régional. L'approche intuitive pourrait être de simplement prendre la moyenne de toutes les stations à chaque pas de temps, mais mon sens statistique des araignées (avec lequel je ne suis certainement pas encore bien en contact) me dit que cela pourrait ne pas être si facile. En particulier, j'imagine que la moyenne sur toute la région supprimera certains des extrêmes de température intéressants, et je pourrais avoir des problèmes de dépendance entre les stations proches.

Quels autres problèmes pourrais-je rencontrer si j'essayais une stratégie comme celle-ci, et existe-t-il des moyens de les surmonter ou des méthodes plus judicieuses pour combiner ce type de données?

Remarque: Les réponses peuvent être plus générales que l'exemple spatial que j'ai fourni.

time-series climate rien101
la source

Le problème pourrait être dans votre conflit entre "un seul enregistrement de température pour toute la région" et tout intérêt que vous portez à la variation intra-régionale. Une solution pourrait impliquer un moyen de réconcilier ces deux problèmes, par exemple le partitionnement de la variance en composantes intra et interrégionales.

Peter Ellis

@ PeterEllis, oui, je pensais vaguement à ça. Aux fins de la question, supposons que je ne me soucie pas de la variabilité spatiale intrarégionale.

naught101

dans ce cas, je pense que la principale chose dont vous devez vous soucier est la dépendance entre les stations proches. Trouvez un moyen de pondérer les observations qui reproduisent efficacement la station d'à côté, et ça devrait aller.

Peter Ellis

@PeterEllis: ok, mais il n'y a peut-être pas de moyen physique raisonnable de le faire - La proximité des stations ne signifie pas nécessairement qu'elles sont plus dépendantes - c'est-à-dire. deux stations proches sur les côtés opposés d'une chaîne de montagnes pourraient être moins similaires que deux stations éloignées sur une large plaine. Existe-t-il un moyen fiable de définir statistiquement la dépendance? Covariance, je suppose ... Il y aura probablement encore moins de pics dans la série résultante (je suppose que cela reflète la situation physique cependant - les changements de température sur une large région seront probablement plus lents et plus stables qu'à un seul endroit).

naught101

@naught, concernant l'aspect spatial de votre question, comment sont définies vos régions? Dans votre commentaire, vous mentionnez que deux stations proches sur les côtés opposés d'une montagne pourraient être différentes de deux stations éloignées sur une large plaine. Avez-vous envisagé de redéfinir les régions des stations en fonction de la proximité et de la similitude pour votre analyse? Ils ne devraient pas nécessairement correspondre aux frontières régionales conventionnelles. Au lieu de cela, ils pourraient devenir une superposition analytique qui pourrait être tracée sur une carte traditionnelle.

dav

Réponses:

Tout d'abord, je voudrais dire que j'ajouterais un commentaire, mais je ne peux pas encore le faire (représentant), mais j'aime la question et je voulais participer, alors voici une "réponse". De plus, je vois que c'est vieux, mais c'est intéressant.

Premièrement, serait-il possible d'utiliser une technique de réduction de dimension, comme l'APC, pour condenser la série chronologique? Si la première valeur propre est grande, cela signifie peut-être que votre utilisation du vecteur propre représenterait la plupart de la dynamique.

Deuxièmement, et plus généralement, quelle est votre utilisation souhaitée de la série chronologique? Ne sachant pas grand-chose d'autre, je suppose que les températures pourraient varier un peu. Par exemple, si certains enregistrements de température sont proches des villes, vous pouvez obtenir un effet de type "îlot de chaleur". Ou peut-être qu'un petit changement de distance latérale produit un grand changement de distance verticale --- un endroit pourrait être au niveau de la mer et directement sur l'océan, et un autre pas "trop loin", mais à un kilomètre d'altitude. Ceux-ci auraient certainement des températures différentes!

Ce ne sont que quelques réflexions. Peut-être que quelqu'un d'autre pourrait intervenir et donner une meilleure réponse.

rbatt
la source

Bon point. Pour être honnête, je ne me souviens pas du contexte de cette question et j'ai le sentiment que mes commentaires étaient trompeurs. J'étais particulièrement intéressé à ne pas perdre la variabilité commune à toutes les stations, mais hors phase. Pensez à des stations sur tout un continent et à un front froid qui traverse. Une simple moyenne spatiale pourrait essentiellement supprimer le front froid, ce qui n'est pas vraiment une bonne chose, car chaque station l'exposerait fortement, mais à des moments différents. Exécuter probablement une sorte de PCA sur chaque station, puis faire la moyenne des résultats pourrait être un moyen de contourner cela.

naught101

O wow, ok, donc si vous essayez de caractériser la tendance des séries chronologiques sur la région, vous devriez peut-être rendre les séries chronologiques stationnaires, et chacune avec une moyenne de 0. Vous pouvez également essayer de supprimer le cycle quotidien de chacun (ou simplement prendre des moyennes quotidiennes). Ensuite, vous vous retrouveriez avec des changements de température à basse fréquence, chacun centré autour d'une moyenne de 0. Une fois que vous avez cela, alors vous pourriez peut-être condenser la série temporelle centrée + stationnaire en utilisant une technique de réduction de dimension, telle que PCA. Je suis content que vous ayez parlé un peu du contexte de la question, b / c qui aide vraiment. Bon produit!

rbatt