Je suis développeur web et statisticien débutant.
Mes données ressemblent à ceci
Subject Week x1 x2 x3 x4 x5 y1
A 1 .5 .6 .7 .8 .7 10
B 1 .3 .6 .2 .1 .3 8
C 1 .3 .1 .2 .3 .2 6
A 2 .1 .9 1.5 .8 .7 5
B 2 .3 .6 .3 .1 .3 2
D 2 .3 .1 .4 .3 .5 10
J'essaie de prédire y1 comme un produit des variables x. Cependant, j'ai des raisons de croire qu'il peut y avoir un décalage dans l'effet des multiples variables x sur y1, c'est-à-dire que les variables x de la semaine 1 pour le sujet A influencent y1 pour le sujet A dans la semaine 2.
Notez que tous les sujets n'auront pas de points de données pour chaque semaine (en fait, la plupart n'en auront pas). Les sujets auront tendance à avoir des points de données pour la semaine 1, 2, 3, 4 par exemple, puis tomberont et ne réapparaîtront pas avant la semaine 7,8,9. Je suis prêt à limiter mon analyse aux points de données où nous avons des données pour les N semaines précédentes étant donné mon hypothèse sur le décalage.
Comme je l'ai dit, je suis un novice et je ne suis pas sûr de la meilleure façon de traiter un ensemble de données de ce formulaire. J'espère effectuer cette analyse soit en R, Python, ou une combinaison des deux. Je ne pense pas que les variables x de la semaine en cours n'auront aucun effet. Je pense qu'ils auront un certain effet, peut-être plus important que les semaines précédentes. Je pense simplement que les semaines précédentes auront un certain effet.
Je m'attends à un décalage de deux à trois semaines. Pour donner un peu de contexte, l'analyse que j'essaie ici concerne le jugement de la qualité du trafic en ligne. Chaque semaine, j'obtiens un score évaluant la qualité d'un certain flux d'utilisateurs que j'envoie sur un site Web donné. J'essaie de trouver des mesures secondaires, telles que la distribution du navigateur, le pourcentage de clics en double, etc. qui me permettront de prédire à l'avance ce score.
Réponses:
Comme je l'ai mentionné dans ma note ci-dessus, je traiterais cela comme un problème de régression. Voici un lien pour construire, dans R, les variables lag (et lead) à partir de vos données ( R Head ).
Cette publication contient une brève introduction à l'utilisation des données résultantes dans un modèle de régression. Vous pourriez également vouloir faire un peu de recherche d'arrière-plan sur le package R dynlm (régression linéaire dynamique).
la source
Vous pouvez créer des tableaux où le y1 est décalé de 0,1,2,3,4 semaines.
Ensuite, vous exécutez une analyse sur eux. Par exemple, vous pourriez créer un réseau neuronal qui essaie de prédire y1 à partir de x. Pour quelques idées, vous pouvez essayer Weka .
Ensuite, vous avez une certaine mesure de prédire y1 à partir de x pour chaque décalage. En utilisant cela, vous pouvez trouver le décalage qui convient le mieux.
Alternativement, vous pouvez créer une table qui inclut x de la semaine en cours, x de la semaine précédente, ... et y1. Faites ensuite une analyse de l'influence (par exemple PCA ) pour voir quelle semaine et quelle variable a le plus d'influence.
la source