J'ai des données de vente quotidiennes pour un produit très saisonnier. Je veux saisir la saisonnalité dans le modèle de régression. J'ai lu que si vous avez des données trimestrielles ou mensuelles, dans ce cas, vous pouvez créer respectivement 3 et 11 variables muettes - mais puis-je gérer les données quotidiennes?
J'ai trois ans de données quotidiennes. Les variables indépendantes sont le prix, le drapeau promotionnel (oui / non) et la température. La variable dépendante est les ventes de ce produit. Je ne recherche pas de modèle de série chronologique car j'utilise un modèle de régression multiple.
Réponses:
@Irishstat a couvert à peu près ce que j'allais dire, mais je répondrais avec ma propre expérience personnelle dans la modélisation de ces données avec la régression des séries chronologiques et la régression OLS.
S'il s'agit de données quotidiennes, je ferais ce qui suit:
Créez une variable fictive pour différentes saisons:
Créez une variable fictive pour les variables de tendance:
Si la série chronologique présente une tendance linéaire, ajoutez une variable de tendance temporelle.
Si la série chronologique présente une tendance non linéaire, ajoutez une variable de tendance temporelle non linéaire telle que quadratique / cubique / log
Ajouter des variables indépendantes Variables
Il s'agit de données de séries chronologiques, il faut donc faire attention aux effets de plomb et de retard des varibales indépendantes. Par exemple, dans votre exemple, vous mentionnez un indicateur promotionnel de prix, ils peuvent ne pas avoir d'effet immédiat sur votre réponse, c'est-à-dire qu'il peut y avoir un retard et un effet de décomposition / permanent . Ainsi, par exemple, si vous lancez une promotion aujourd'hui, vous pourriez avoir une augmentation des ventes aujourd'hui, mais l'effet de la promotion diminue après quelques jours. Il n'y a pas de moyen facile de modéliser cela en utilisant une régression multiple, vous voudriez utiliser une modélisation de fonction de transfert qui est parcimonoïque et peut gérer tout type d'effets de plomb et de retard. Voir cet exemple que j'ai publié plus tôt, où il y a une intervention (dans votre cas, le prix) et une augmentation brutale, suivie d'un effet de décroissance. Cela dit, si vous avezune connaissance a priori de l'effet de plomb et de retard, créez des variables supplémentaires dans votre cas, des variables factices avant et après le prix et (oui / non) le changement de promotion.
Vous devrez également ajouter des variables d'indicateur de jours fériés mobiles, par exemple, comme Irishstat l'a souligné, vous voudrez ajouter Pâques / Thanksgiving (aux États-Unis) qui sont des jours fériés mobiles. Les jours fériés qui sont des dates fixes seront automatiquement pris en charge si vous utilisez un schéma de codage factice pour capturer la saisonnalité.
En outre, vous devrez identifier les valeurs aberrantes telles que l'additif / impulsion (événement unique) ou le changement de niveau (changement permanent) et les ajouter en tant que régresseurs. Il est presque impossible d'identifier les valeurs aberrantes dans la régression multiple pour les données de séries chronologiques; vous auriez besoin de méthodes de détection de valeurs aberrantes de séries chronologiques telles que la procédure de Tsay ou la procédure de Chen et Liu qui a été incorporée dans des logiciels tels que AUTOBOX, SPSS, SAS ou le
tsoutlier
package dans R.Problèmes potentiels:
Voici les problèmes que vous pourriez rencontrer si vous modélisez des données de séries chronologiques à l'aide de la régression multiple OLS.
Et il y a bien plus d'inconvénients à utiliser la régression multiple. Si la prédiction est plus importante pour vous, je détiendrais au moins 6 mois de données et testerais la capacité prédictive de votre régression multiple. Si votre objectif principal est d'expliquer la corrélation entre les variables indépendantes, alors je serais prudent en utilisant la régression multiple, et j'utiliserais plutôt une approche de séries chronologiques comme ARIMAX / GLS.
Si vous êtes intéressé, vous pouvez vous référer à l'excellent texte de Pankratz , pour la fonction de transfert et la modélisation de régression dynamique. Pour les prévisions générales de séries chronologiques, veuillez consulter Makridakis et al . En outre, un bon texte de référence serait de Diebold pour la régression et les prévisions basées sur les séries chronologiques.
la source
Ce dont vous avez besoin est un modèle qui incorporera les effets quotidiens, les effets hebdomadaires, les effets mensuels, les effets de la semaine du mois, les effets du jour du mois, les effets de plomb et de décalage des vacances, les décalages de niveau / pas non spécifiés mais identifiables empiriquement, les tendances temporelles locales, les changements d'impulsions saisonnières et les impulsions tout en incorporant la structure ARIMA et en traitant éventuellement les changements de paramètres et la variance des erreurs dans le temps. C'est ce qu'on appelle une fonction de transfert et peut être facilement reformulée (MAIS PAS PARSIMONIQUEMENT) comme une régression linéaire multiple.
En particulier, un indicateur quotidien prendrait 6 prédicteurs. En général, il faut soigneusement orchestrer (identifier) le type de prédicteurs nécessaires. Si vous avez beaucoup de temps libre, vous pouvez expérimenter certaines des structures que j'ai mentionnées. Alternativement, vous pourriez avoir besoin d'un logiciel / conseil avancé pour vous aider à résoudre votre problème au cours de votre vie.
la source