Je fais actuellement une analyse sur un site Web qui nécessite que je crée un diagramme d'arbre de décision montrant la route probable que les gens prennent chaque fois qu'ils arrivent sur le site Web. Je traite un data.frame
qui montre les chemins de tous les clients vers le site, à partir de la page d'accueil. Par exemple, un client peut emprunter le chemin suivant:
Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3
ce client aurait donc un parcours de 3 pages. Ce que je veux essayer de faire dans R, c'est combiner tous les chemins des clients et ainsi attribuer une probabilité à un client qui suit un certain chemin sur le site. Par exemple, si je devais examiner tous les chemins, je pourrais trouver que 34% des personnes qui arrivent sur la page d'accueil vont sur la «page des articles de cuisine». Est-ce que R a cette facilité?
J'ai recherché différentes méthodes à travers les packages rpart et partykit , mais elles ne semblent pas être d'aucune aide.
Tout virage dans la bonne direction est très apprécié!
la source
igraph
paquet semble être assez complet.Réponses:
Ce n'est pas une façon de commencer, c'est d'avoir une matrice (disons ) où est le nombre de pages. Ensuite, en fonction de votre élément de matrice d'incrémentation de données brutes par un chaque fois que vous avez un saut utilisateur de la page à la page . Cela vous donne les probabilités de transition.M n × n n M r c r cn×n Mn×n n Mrc r c
Votre première question est déjà répondue par ceci: "Quel pourcentage d'utilisateurs sur la page d'accueil (disons page 1) voyage à côté, disons, des articles de cuisine (disons page 2)?"
Ou est-ce trop simpliste?
la source
Il semble que vous essayez de recréer l'algorithme PageRank de Google. La plupart de l'algorithme PageRank a été développé à l'aide de chaînes de Markov. Vous pouvez trouver beaucoup de mentions sur le développement de méthodes de PageRank dans R.
igraph.sourceforge.net/doc/R/page.rank.htm
la source
D'après ce que je vois ici, je conviens que igraphs / Markov Chains est probablement la voie à suivre, mais vous pouvez certainement utiliser rpart et / ou le partykit.
Il m'est difficile de donner une réponse simple avec votre exemple limité, mais je peux expliquer de manière générale comment vous le feriez.
Vous voulez voir où se trouvaient tous vos utilisateurs et résumer cela en une chaîne par exemple
Vous pouvez ensuite segmenter vos utilisateurs en catégories, par exemple ceux qui se sont retrouvés sur la page "acheter maintenant" et ceux qui ne l'ont pas fait. Ensuite, vous pouvez simplement commencer à prédire ce résultat final. Dans cet exemple, vous découvrirez peut-être que les personnes qui ont fait le plus de comparaison ont acheté / n'ont pas acheté quelque chose.
Vous pouvez également créer plus de variables, telles que "quelle était la page avant la page d'achat" "combien de pages ont-ils visitées avant d'acheter quelque chose" ou "quand ont-elles créé leur premier compte", et vous pouvez ajouter ces mesures à votre analyse.
Il y a beaucoup de façons différentes de procéder, et cela commence à répondre à différentes questions, mais mon point est que vous pouvez utiliser les arbres et que pour certains problèmes, cela pourrait être un itinéraire plus rapide et plus simple pour obtenir des informations.
Soit dit en passant, vous devrez créer des facteurs de variables non numériques en utilisant
factor
ouas.factor
, si vous comptez utiliser Party. La fête a de belles vignettes pour vous aider à démarrer.la source