Les données: J'ai récemment travaillé sur l'analyse des propriétés stochastiques d'un champ spatio-temporel d'erreurs de prévision de production d'énergie éolienne. Formellement, on peut dire que c'est un processus
indexé deux fois dans le temps (avecet) et une fois dans l'espace () avecétant le nombre de temps d'anticipation (équivaut à environ, régulièrement échantillonnés),étant le nombre de "heures de prévision" (c'est-à-dire les heures auxquelles la prévision est émise, environ 30000 dans mon cas, régulièrement échantillonnées), etétant un certain nombre de positions spatiales (non quadrillées, environ 300 dans mon cas). Comme il s'agit d'un processus lié aux conditions météorologiques, j'ai également beaucoup de prévisions météorologiques, d'analyses et de mesures météorologiques qui peuvent être utilisées.
Question: Pouvez-vous me décrire l'analyse exploratoire que vous effectueriez sur ce type de données pour comprendre la nature de la structure d'interdépendance (qui pourrait ne pas être linéaire) du processus afin d'en proposer une modélisation fine.
Réponses:
Il me semble que vous disposez de suffisamment de données pour modéliser la dépendance vis-à-vis de l'espace-temps et des influences météorologiques à la fois du biais des erreurs de prévision (c'est-à-dire de la tendance à sur / sous-estimer systématiquement [premier moment]) et à leur variance [deuxième moment].
Pour l'exploration du biais, je ferais juste beaucoup de diagrammes de dispersion, de cartes thermiques ou de diagrammes hexbin. Pour l'exploration de la variabilité, je mettrais juste les erreurs originales au carré, puis je ferais encore beaucoup de diagrammes de dispersion, de cartes thermiques ou de diagrammes hexbin. Ce n'est bien sûr pas entièrement sans problème si vous avez beaucoup de biais, mais cela peut quand même aider à voir des modèles d'hétéroskédasticité influencée par les covariables.
R
mboost
la source
Nous (un collègue et moi) avons finalement écrit un document à ce sujet. Pour résumer les choses, nous avons proposé deux solutions pour quantifier et donner un résumé statistique de la propagation (spatio-temporelle) des erreurs le long du Danemark et des temps d'anticipation.
Cela peut être utilisé pour calculer un vecteur de propagation global, c'est-à-dire une sorte de moyenne spatiale des vitesses de propagation entre paires. Une partie de cela est montrée sur le côté gauche de la figure 1, et devinez quelle propagation des erreurs est Ouest-Est au Denamrk (ok ce n'était pas une grosse surprise :)). Nous avons également analysé cela conditionnellement à différentes situations météorologiques afin de montrer la relation entre la propagation et le vent (vitesse, direction).
Dans le second cas, nous avons observé que la vitesse de propagation moyenne temporelle a un amplitude similaire à celle obtenue avec la moyenne spatiale dans le premier cas. Si vous voulez regarder ce travail plus au sérieux, le papier est ici .
la source