J'ai quelques données de fréquence cumulées. Une ligne semble très bien correspondre aux données, mais il y a un mouvement cyclique / périodique dans la ligne. Je voudrais estimer quand la fréquence cumulée atteindra une certaine valeur c . Lorsque je trace les valeurs résiduelles par rapport aux valeurs ajustées, j'obtiens un beau comportement sinusoïdal.
Maintenant, pour ajouter une autre complication, notez que dans les graphiques de résidus
il y a deux cycles qui ont des valeurs inférieures aux autres, ce qui représente un effet week-end qui doit également être pris en compte.
Alors, où dois-je aller d'ici? Comment puis-je combiner un terme cosinus, sinus ou cyclique dans un modèle de régression à env. estimer quand la fréquence cumulée sera égale à ?
la source
Commençons par observer que les moindres carrés ordinaires convenant à ces données sont probablement inappropriés. Si les données individuelles accumulées sont supposées, comme d'habitude, avoir des composants d'erreur aléatoires, alors l'erreur dans les données cumulatives ( pas les fréquences cumulatives que - c'est quelque chose de différent de ce que vous avez) est la somme cumulative de tous les termes d'erreur. Cela rend les données cumulatives hétéroscédastiques (elles deviennent de plus en plus variables au fil du temps) et fortement corrélées positivement. Parce que ces données se comportent si régulièrement, et il y en a tellement, il n'y a pas de problème avec l' ajustement vous obtiendrez, mais vos estimations d'erreurs, vos prédictions (c'est tout ce que la question est à propos), et surtout vos erreurs de prédiction standard peuvent être loin.
Une procédure standard pour analyser ces données commence par les valeurs d'origine. Prenez les différences au jour le jour pour éliminer la composante sinusoïdale de fréquence plus élevée. Prenez les différences hebdomadaires de celles-ci pour supprimer un éventuel cycle d'une semaine à l'autre. Analysez ce qui reste. La modélisation ARIMA est une approche flexible et puissante, mais commencez simplement: représentez graphiquement ces données différenciées pour voir ce qui se passe, puis continuez à partir de là. Notez également qu'avec moins de deux semaines de données, vos estimations du cycle hebdomadaire seront médiocres et cette incertitude dominera l'incertitude des prévisions.
la source
Il est clair que l'oscillation dominante a une période d'un jour. Il semble qu'il existe également des composants de fréquence inférieure liés au jour de la semaine, alors ajoutez un composant avec une fréquence d'une semaine (c'est-à-dire un septième de jour) et ses premières harmoniques. Cela donne un modèle de la forme:
- en supposantt est mesurée en jours. Iciy est la donnée brute , pas sa somme cumulée.
la source
Pourquoi ne pas simplement utiliser un GA pour trouver séquentiellement l'amplitude, la période et la phase d'une série de sinus (ou cosinus), puis combinés. Optimisez les éléments suivants: (n (n-1) / ((np-1) ^ 2 (np-2))) RSS
la source