Je voudrais tester un nouvel algorithme de filtrage collaboratif . Un cas d'utilisation typique consiste à recommander des films en fonction des préférences des utilisateurs similaires à l'utilisateur spécifique.
Quels sont les ensembles de données de référence communs que les chercheurs utilisent souvent pour tester leurs algorithmes? Je sais que dans Computer Vision, les gens utilisent souvent MNIST ou CIFAR, mais je n'ai pas trouvé d'ensembles de données similaires pour le filtrage collaboratif.
Réponses:
La réponse évidente serait l'ensemble de données du prix Netflix, il y a beaucoup de recherches à ce sujet et la plupart des algorithmes CF ont des scores connus.
Il existe d'autres jeux de données disponibles qui sont généralement utilisés comme références:
Movie Lens Dataset : un ensemble de données de 20 millions de notes utilisé pour comparer les algorithmes CF;
Jester Dataset : un ensemble de données de recommandations de blagues avec plus de 6 millions de notes;
Vous pouvez trouver de nombreux autres jeux de données dans ce lien
la source
J'ai un référentiel qui pourrait vous aider.
https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/
la source