Comment modéliser le comportement d'achat de l'utilisateur sur Amazon?

9

Pour notre projet de cours final en science des données, nous avons proposé ce qui suit:

Avec l' Amazon Reviews Dataset , nous prévoyons de proposer un algorithme (basé à peu près sur le PageRank personnalisé) qui détermine une position stratégique pour placer des annonces sur Amazon. Par exemple, il y a des millions de produits sur Amazon. Et l'ensemble de données vous donne une idée de quels produits sont liés, quels produits ont été rassemblés, consultés, etc. (nous pouvons construire un graphique avec ces informations également consultées et également achetées). 14 ans. En utilisant toutes ces informations, nous évaluerons / classerons les produits sur Amazon. Maintenant, vous êtes un fournisseur sur Amazon qui souhaite améliorer le trafic vers sa page produit. Notre algorithme vous aide à identifier les positions stratégiques dans le graphique où vous pouvez placer votre annonce afin de générer un trafic maximum.

Maintenant, la question de notre professeur est la suivante: comment allez-vous valider votre algorithme sans utilisateurs réels? Nous l'avons dit-

Nous pouvons modéliser un ensemble fixe d'utilisateurs. Certains utilisateurs suivent also_boughtet établissent des also_viewedliens vers le troisième saut plus souvent que le premier ou le cinquième saut. Là, le comportement des utilisateurs est normalement distribué. Certains autres utilisateurs naviguent à peine au-delà du premier saut. Cet ensemble de comportements d'utilisateurs est distribué de façon exponentielle.

Notre professeur a déclaré - Quelle que soit la distribution suivie par les utilisateurs, les utilisateurs naviguent à l'aide de liens vers des produits similaires. Votre algorithme de classement prend également en compte la similitude des produits n / b 2 pour classer les produits. Donc, utiliser cet algorithme de validation est un peu cheating. Venez avec un autre comportement utilisateur, quelque chose de plus réaliste et orthogonal à l'algorithme.

Des idées sur la façon de modéliser le comportement des utilisateurs? Je suis heureux de fournir plus de détails sur l'algo.

Pavan Manjunath
la source

Réponses:

1

Comment allez-vous valider votre algorithme?

Plutôt que d'essayer de répondre à la deuxième question, considérez que votre réponse à la première question pourrait nécessiter une révision ...

Quelles méthodes avez-vous utilisées pour valider les méthodes d'apprentissage tout au long de votre cours de science des données? Vous voulez d'abord définir un ensemble spécifique de métriques numériques pour évaluer le succès ou l'échec de votre modèle. Deuxièmement, quelles méthodes pouvez-vous utiliser pour créer une population de tests très réaliste (plus réaliste que la modélisation de la population)? Le premier indice que je donnerai est que le jeu de données Amazon Reviews est très grand, donc vos données sont très modifiables à cette méthode. Le deuxième indice que je donnerai est que cette méthode est probablement celle que vous avez utilisée dans 95% des problèmes d'apprentissage supervisé sur lesquels vous avez travaillé en classe ...

J'espère que cela aide ... Je modifierai cela si besoin est en fonction des commentaires ajoutés par l'OP, mais je ne veux pas fournir la solution tout de suite afin de susciter une pensée organique, par exemple, car il s'agit d'un problème de classe et le Prof est essayant également de vous aider à trouver la bonne solution par vous-même.

AN6U5
la source
0

Il y a deux exigences pour le modèle de comportement que vous devez utiliser: (1) "plus réaliste" et (2) orthogonal à votre algorithme.

(1) Par réaliste, supposons que cela signifie que le comportement devrait refléter les comportements observés dans d'autres contextes plus larges que le contexte spécifique des achats Amazon.

(2) Orthogonal est plus simple à comprendre. Le comportement modélisé ne doit pas être motivé par des similitudes entre les produits.

Une approche simple pour répondre à ces deux exigences proviendrait du fait que les comportements d'achat sont dictés par des caractéristiques sociodémographiques telles que le sexe, l'âge, la localisation (par exemple zone urbaine / rurale) et les contraintes économiques (revenus et prix).

Vous avez un ensemble d'utilisateurs et un ensemble de produits. Vous pouvez estimer la relation entre les variables sociodémographiques et la demande de produit à l'aide de techniques de régression simples mais prudentes. Si nécessaire, vous pouvez utiliser des sources de données externes pour formuler des hypothèses concernant d'importantes variables manquantes telles que le revenu.

Ensuite, si vous êtes un fournisseur, le modèle socio-démographique permettrait de prédire quels groupes sont les plus susceptibles d'acheter votre produit.

J'espère que ça aide :)

Ben

Benjamin Tannenbaum
la source