Je recherche un modèle entre les cours de l'énergie et la météo. J'ai le prix du MWatt acheté entre les pays d'Europe, et beaucoup de valeurs sur la météo (fichiers Grib). Chaque heure sur une période de 5 ans (2011-2015).
Prix / jour
C'est par jour pendant un an. J'ai ceci par heure sur 5 ans.
Exemple de météo
3Dscatterplot, en kelvin, pendant une heure. J'ai 1000 valeurs par données par heure et 200 données, comme klevin, vent, géopentiel, etc.
J'essaie de prévoir le prix moyen par heure du Mwatt.
Mes données météorologiques sont très denses, plus de 10000 valeurs / heure et donc avec une forte corrélation. C'est un problème de données courtes et volumineuses.
J'ai essayé les méthodes Lasso, Ridge et SVR avec le prix moyen du MWatt comme résultat et mes données météorologiques comme revenu. J'ai pris 70% comme données d'entraînement et 30% comme test. Si les données de mon test ne sont pas prévisionnelles (quelque part dans mes données d'entraînement), j'ai une bonne prédiction (R² = 0,89). Mais je veux faire des prévisions sur mes données.
Donc, si les données de test sont chronologiquement après mes données d'entraînement, cela ne prédit rien (R² = 0,05). Je pense que c'est normal parce que c'est une série de temps. Et il y a beaucoup d'autocorrélation.
Je pensais que je devais utiliser un modèle de série temporelle comme ARIMA. J'ai calculé l'ordre de la méthode (la série est stationnaire) et je l'ai testée. Mais ça ne marche pas. Je veux dire que la prévision a un r² de 0,05. Ma prédiction sur les données de test n'est pas du tout sur mes données de test. J'ai essayé la méthode ARIMAX avec ma météo comme régresseur. Mettez-le n'ajoute aucune information.
ACF / PCF, données de test / train
J'ai donc fait une coupe saisonnière par jour et par semaine
journée
Semaine sur la tendance du premier
Et je peux avoir ceci si je peux prédire la tendance de tendance de mon cours de bourse:
Le bleu est ma prédiction et le rouge la valeur réelle.
Je vais faire une régression avec une moyenne mobile du temps comme revenu et la tendance de la tendance du cours des actions comme résultat. Mais pour l'instant, je n'ai trouvé aucune relation.
Mais s'il n'y a pas d'interaction, comment puis-je savoir qu'il n'y a rien? c'est peut-être juste que je ne l'ai pas trouvé.
Réponses:
Vous pourriez être intéressé par un domaine scientifique formel appelé «mécanique numérique». Dans un article de James Crutchfield et David Feldman, ils exposent le programme de mécanique computationnelle - pour autant que je le comprenne - comme analysant les frontières entre (1) l'incertitude déterministe et le coût de l'information pour inférer des relations déterministes, (2) stochastiques l'incertitude et le coût de l'information pour inférer les distributions de probabilité, et (3) l'incertitude entropique et les conséquences d'être pauvre en information.
Pour répondre directement à votre question (mais aussi de façon assez large, puisque vous avez posé une question large), comment savoir quand nous avons appris «assez» ou «tout ce que nous pouvons» à partir des données est un domaine de recherche ouvert. Le premier dépendra nécessairement de ses besoins en tant que chercheur et acteur dans le monde (par exemple, compte tenu du temps, de la puissance de traitement, de la mémoire, de l'urgence, etc.).
Je ne suis pas sur ce terrain, ni même en profondeur avec cet article particulier, mais ce sont des penseurs cool. :)
Crutchfield, JP et Feldman, DP (2003). Régularités invisibles, aléas observés: niveaux de convergence entropique . Chaos , 13 (1): 25-54.
la source