Quand dois-je arrêter de chercher un modèle?

11

Je recherche un modèle entre les cours de l'énergie et la météo. J'ai le prix du MWatt acheté entre les pays d'Europe, et beaucoup de valeurs sur la météo (fichiers Grib). Chaque heure sur une période de 5 ans (2011-2015).

Prix ​​/ jour

entrez la description de l'image ici

C'est par jour pendant un an. J'ai ceci par heure sur 5 ans.

Exemple de météo

entrez la description de l'image ici 3Dscatterplot, en kelvin, pendant une heure. J'ai 1000 valeurs par données par heure et 200 données, comme klevin, vent, géopentiel, etc.

J'essaie de prévoir le prix moyen par heure du Mwatt.

Mes données météorologiques sont très denses, plus de 10000 valeurs / heure et donc avec une forte corrélation. C'est un problème de données courtes et volumineuses.

J'ai essayé les méthodes Lasso, Ridge et SVR avec le prix moyen du MWatt comme résultat et mes données météorologiques comme revenu. J'ai pris 70% comme données d'entraînement et 30% comme test. Si les données de mon test ne sont pas prévisionnelles (quelque part dans mes données d'entraînement), j'ai une bonne prédiction (R² = 0,89). Mais je veux faire des prévisions sur mes données.

Donc, si les données de test sont chronologiquement après mes données d'entraînement, cela ne prédit rien (R² = 0,05). Je pense que c'est normal parce que c'est une série de temps. Et il y a beaucoup d'autocorrélation.

Je pensais que je devais utiliser un modèle de série temporelle comme ARIMA. J'ai calculé l'ordre de la méthode (la série est stationnaire) et je l'ai testée. Mais ça ne marche pas. Je veux dire que la prévision a un r² de 0,05. Ma prédiction sur les données de test n'est pas du tout sur mes données de test. J'ai essayé la méthode ARIMAX avec ma météo comme régresseur. Mettez-le n'ajoute aucune information.

ACF / PCF, données de test / train

J'ai donc fait une coupe saisonnière par jour et par semaine

journée

entrez la description de l'image ici

Semaine sur la tendance du premier

entrez la description de l'image ici

Et je peux avoir ceci si je peux prédire la tendance de tendance de mon cours de bourse: entrez la description de l'image ici

Le bleu est ma prédiction et le rouge la valeur réelle.

Je vais faire une régression avec une moyenne mobile du temps comme revenu et la tendance de la tendance du cours des actions comme résultat. Mais pour l'instant, je n'ai trouvé aucune relation.

Mais s'il n'y a pas d'interaction, comment puis-je savoir qu'il n'y a rien? c'est peut-être juste que je ne l'ai pas trouvé.

el Josso
la source
Votre question est trop large pour être répondue. Que modélisez-vous? Qu'est-ce qui "ne fonctionne pas"? La régression et l'ARIMA sont des modèles totalement différents, alors que faisiez-vous exactement ..?
Tim
Je modélise l'évolution du prix. Et j'ai obtenu un R² inférieur à 0,2 sur mes prévisions
el Josso
1
Et quel est exactement le problème ici? Pourriez-vous nous expliquer quelles sont vos données, quels modèles avez-vous essayés, quels problèmes rencontrez-vous et, surtout, quelle est votre question ici? Comment définissez-vous l '"évolution des prix"? Comme je l'ai dit, votre question est trop vague et trop large et un candidat doit donc être fermé car sans réponse.
Tim
Dois-je ajouter des graphiques?
el Josso
Vous pouvez si cela aide (dans de nombreux cas, c'est le cas) :)
Tim

Réponses:

7

Vous pourriez être intéressé par un domaine scientifique formel appelé «mécanique numérique». Dans un article de James Crutchfield et David Feldman, ils exposent le programme de mécanique computationnelle - pour autant que je le comprenne - comme analysant les frontières entre (1) l'incertitude déterministe et le coût de l'information pour inférer des relations déterministes, (2) stochastiques l'incertitude et le coût de l'information pour inférer les distributions de probabilité, et (3) l'incertitude entropique et les conséquences d'être pauvre en information.

Pour répondre directement à votre question (mais aussi de façon assez large, puisque vous avez posé une question large), comment savoir quand nous avons appris «assez» ou «tout ce que nous pouvons» à partir des données est un domaine de recherche ouvert. Le premier dépendra nécessairement de ses besoins en tant que chercheur et acteur dans le monde (par exemple, compte tenu du temps, de la puissance de traitement, de la mémoire, de l'urgence, etc.).

Je ne suis pas sur ce terrain, ni même en profondeur avec cet article particulier, mais ce sont des penseurs cool. :)

Crutchfield, JP et Feldman, DP (2003). Régularités invisibles, aléas observés: niveaux de convergence entropique . Chaos , 13 (1): 25-54.

Alexis
la source
1
Je ne sais pas si cela a répondu à la question OP, mais j'aime cette perspective.
horaceT
Ce n'est pas vraiment ce que je cherchais mais c'est un bon article.
el Josso