J'ai un ensemble de données qui contient quelques centaines de transactions provenant de trois fournisseurs opérant dans plus de 100 pays sur une période de trois ans.
Nous avons constaté que le pays de vente n'est pas un facteur significatif dans les prix atteints (les produits sont des produits plus ou moins mondiaux). Tous les prix ont considérablement diminué au fil du temps. Chaque jour, plusieurs transactions peuvent être effectuées à des prix différents par le même fournisseur (c'est-à-dire dans différents pays).
Je voudrais vérifier s'il existe une différence statistiquement significative dans les prix pratiqués par les différents fournisseurs.
Les données ressemblent à ceci:
Country X 1/1/2010 $200 Supplier A
Country Y 1/1/2010 $209 Supplier A
Country Z 1/1/2010 $187 Supplier A
Country A 1/1/2010 $200 Supplier B
Country X 1/2/2010 $188 Supplier B
Auriez vous des idées pour faire ça?.....
Réponses:
Il semble que vous ayez besoin d'utiliser des méthodes de séries chronologiques, telles que ARMA ou ARIMA, qui vous permettent de calculer une régression en utilisant le temps comme variable indépendante sans violer l'hypothèse d'observations indépendantes de l'OLS.
Vous pouvez essayer une analyse en deux étapes: - utilisez d'abord le temps comme variable prédictive unique et utilisez une méthode de série chronologique appropriée - deux voient s'il y a une différence significative dans les résidus entre les deux fournisseurs. (Un simple test t pourrait suffire.)
la source
Il y a plusieurs façons. Une option consiste à convertir les dates en jours après le tout premier jour. De plus, vous pourriez avoir des variables supplémentaires de jours de la semaine (tendances à travers la semaine) et du mois (pour voir les tendances à certaines périodes de l'année). Ce faisant, vous pouvez utiliser la régression multiple.
Pour obtenir la variable "# de jours après le premier jour", je crois (à la fois Excel et R) que vous pouvez simplement soustraire les données antérieures de cette dernière date et obtenir la différence de jour. Alors peut-être essayez de soustraire 1/1/2010 de toutes vos dates. Vous devez également indiquer à R que la nouvelle valeur est numérique en utilisant as.numeric ()
EDIT: R semble lire l'année en premier, donc vous devrez peut-être déconner un peu les dates. voir ceci: /programming/2254986/how-to-subtract-days-in-r
L'analyse des séries chronologiques est une autre approche, mais je ne la connais pas trop bien.
la source
Je peux vous conseiller d'utiliser une fonction non linéaire pour la variable temps car les prix baissent moins avec chaque unité de temps supplémentaire. Sinon, le prix tomberait finalement en dessous de zéro. De plus, il peut y avoir des périodes où la tendance a changé. Je recommande donc d'utiliser des splines cubiques pour la variable de temps.
L'expérience me chuchote que je vérifierais le modèle suivant:
Y = country_parameter * price (t) * e
où le prix (t) est une fonction, de préférence une spline cubique, mais il peut également s'agir d'une tendance quelconque, même linéaire. Notez qu'il y a des signes de multiplication, pas des sommes, dans le modèle.
la source
Choisissez une date de référence, par exemple 1/1/2010, et créez une nouvelle variable
time
qui est la différence entre la date et la date de référence, où la différence est calculée, disons, en jours.Exécutez maintenant une régression linéaire (ou quelque chose de similaire) avec
time
etsupplier
comme deux variables prédictives etprice
comme variable de réponse.Ce n'est qu'un point de départ.
la source