Pour notre projet de cours final en science des données, nous avons proposé ce qui suit:
Avec l' Amazon Reviews Dataset , nous prévoyons de proposer un algorithme (basé à peu près sur le PageRank personnalisé) qui détermine une position stratégique pour placer des annonces sur Amazon. Par exemple, il y a des millions de produits sur Amazon. Et l'ensemble de données vous donne une idée de quels produits sont liés, quels produits ont été rassemblés, consultés, etc. (nous pouvons construire un graphique avec ces informations également consultées et également achetées). 14 ans. En utilisant toutes ces informations, nous évaluerons / classerons les produits sur Amazon. Maintenant, vous êtes un fournisseur sur Amazon qui souhaite améliorer le trafic vers sa page produit. Notre algorithme vous aide à identifier les positions stratégiques dans le graphique où vous pouvez placer votre annonce afin de générer un trafic maximum.
Maintenant, la question de notre professeur est la suivante: comment allez-vous valider votre algorithme sans utilisateurs réels? Nous l'avons dit-
Nous pouvons modéliser un ensemble fixe d'utilisateurs. Certains utilisateurs suivent
also_bought
et établissent desalso_viewed
liens vers le troisième saut plus souvent que le premier ou le cinquième saut. Là, le comportement des utilisateurs est normalement distribué. Certains autres utilisateurs naviguent à peine au-delà du premier saut. Cet ensemble de comportements d'utilisateurs est distribué de façon exponentielle.
Notre professeur a déclaré - Quelle que soit la distribution suivie par les utilisateurs, les utilisateurs naviguent à l'aide de liens vers des produits similaires. Votre algorithme de classement prend également en compte la similitude des produits n / b 2 pour classer les produits. Donc, utiliser cet algorithme de validation est un peu cheating
. Venez avec un autre comportement utilisateur, quelque chose de plus réaliste et orthogonal à l'algorithme.
Des idées sur la façon de modéliser le comportement des utilisateurs? Je suis heureux de fournir plus de détails sur l'algo.
la source