Je suis nouveau dans la page et assez nouveau dans les statistiques et R. Je travaille sur un projet de collège avec l'objectif de trouver la corrélation entre la pluie et le niveau du débit d'eau dans les rivières. Une fois que la corrélation est prouvée, je veux la prévoir / la prédire.
Les données J'ai un ensemble de données de plusieurs années (prises toutes les 5 minutes) pour une rivière particulière contenant:
- Précipitations en millimètres
- Débit de la rivière en mètres cubes par seconde
Cette rivière n'a pas de neige, donc le modèle est basé uniquement sur la pluie et le temps. Il y a parfois des températures glaciales, mais je pense à supprimer ces périodes des données aussi aberrantes que cette situation est hors de portée pour mon projet.
Exemples Ici, vous avez quelques parcelles d'échantillons de données provenant d'une pluie et de la montée de l'eau quelques heures plus tard.
La ligne rouge représente le débit de la rivière. L'orange est la pluie. Vous pouvez voir qu'il pleut toujours avant que l'eau ne monte dans la rivière. Il y a de la pluie qui recommence à la fin de la série chronologique, mais cela affectera le débit de la rivière plus tard.
La corrélation est là. Voici ce que j'ai fait dans R pour prouver la corrélation en utilisant ccf dans R:
- la corrélation croisée
- la variable principale
- le décalage
Voici ma ligne R utilisée pour le deuxième exemple (une période de pluie):
ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain")
Mon interprétation est:
- que la pluie mène (arrive en premier),
ccf
Ai-je raison?
À propos de la série chronologique . Cette série chronologique n'a ni périodicité ni saisonnalité. La pluie peut arriver à tout moment et provoquer un effet. Il diminue en été, mais cela arrive toujours, c'est une zone avec beaucoup de pluie toute l'année.
Modèle et prévision.
Je ne sais pas comment créer un modèle pour pouvoir faire une prévision qui me dit combien une rivière va augmenter le volume après une période de pluie. J'en ai essayé arima
, auto arima
mais je n'ai pas réussi. Dois - je utiliser Arima
, vars
ou tout autre modèle différent de plusieurs variables? Tout lien vers un exemple serait d'une grande aide.
S'il vous plaît, faites-moi savoir si vous connaissez la meilleure façon de créer cette prédiction, quel modèle dois-je utiliser. Il y a quelques autres choses que j'envisage de faire, mais je les ai retirées de cette explication pour plus de simplicité. Je peux partager certaines données si nécessaire.
la source
Réponses:
Vous devez utiliser vos comportements ACF et PACF pour vous aider à déterminer le modèle qui convient le mieux à vos données (par exemple, l'existence d'une décroissance lente dans le tracé ACF indique qu'une différenciation peut être nécessaire pour stabiliser la série. Votre tracé ACF montre évidemment qu'une sorte de transformation est nécessaire. La fluctuation doit être moins variée et dans les lignes bleues si vous utilisez la bonne transformation (série stationnaire). Une fois que vous avez rendu votre série stationnaire, pensez au modèle AR, MA, ARMA ou ARIMA approprié. Dans mon projet, j'ai fait ce qui suit pour aider à la sélection des modèles:
Le tracé ACF montre une valeur relativement grande au décalage 2 ( voir où cela se trouve dans votre tracé ). En dehors de cela, il devient essentiellement nul à des décalages supérieurs à deux. Cela suggère qu'un modèle MA (2) peut ajuster les données, puis en regardant le graphique PACF, nous remarquons immédiatement que la corrélation est nulle presque à tous les décalages. Cela peut suggérer que le modèle ne contient aucune pièce AR ( ajustez-la à votre tracé). Par conséquent, l'un de nos modèles candidats pourrait être un ARIMA (p, d, q) avec les paramètres p = 0, d = 1 et q = 1 ou 2. J'ai également essayé des ordres de MA plus élevés et j'ai envisagé une possibilité d'avoir une partie AR dans le modèle afin de comparer les résultats de AIC, AICc et BIC et de décider du modèle final. la prochaine étape, vous devrez exécuter des tests de diagnostic pour vous assurer que vous avez choisi le bon modèle et qu'il n'y a pas de modèle dans vos résidus (ACF et PACF pour les résidus, p-value pour la statistique Ljung-Box, histyogramme pour les résidus, et Tracé QQ). J'espère que cela aide!
la source