Jeux de données de référence pour le filtrage collaboratif

9

Je voudrais tester un nouvel algorithme de filtrage collaboratif . Un cas d'utilisation typique consiste à recommander des films en fonction des préférences des utilisateurs similaires à l'utilisateur spécifique.

Quels sont les ensembles de données de référence communs que les chercheurs utilisent souvent pour tester leurs algorithmes? Je sais que dans Computer Vision, les gens utilisent souvent MNIST ou CIFAR, mais je n'ai pas trouvé d'ensembles de données similaires pour le filtrage collaboratif.

pir
la source
1
Avez-vous jeté un coup d'œil à l'ensemble de données de prix Netflix? Oui, la compétition est terminée depuis longtemps et elle a été retirée du site officiel pour des raisons de confidentialité. Vous pouvez toujours essayer de le trouver dans d'autres endroits.
Vladislavs Dovgalecs
Kaggle.com en a un tas. Recherchez simplement «recommandation dans: ensemble de données» ou «recommandation dans: compétition».
ran8

Réponses:

8

La réponse évidente serait l'ensemble de données du prix Netflix, il y a beaucoup de recherches à ce sujet et la plupart des algorithmes CF ont des scores connus.

Il existe d'autres jeux de données disponibles qui sont généralement utilisés comme références:

  • Movie Lens Dataset : un ensemble de données de 20 millions de notes utilisé pour comparer les algorithmes CF;

  • Jester Dataset : un ensemble de données de recommandations de blagues avec plus de 6 millions de notes;

  • Vous pouvez trouver de nombreux autres jeux de données dans ce lien

João Almeida
la source
1

J'ai un référentiel qui pourrait vous aider.

https://github.com/ArthurFortes/Datasets-for-Recommneder-Systems/

Arthur Fortes
la source
3
Veuillez ne pas publier de réponses contenant uniquement des liens, les réponses doivent être autonomes. Je recommande de modifier votre réponse pour ajouter au moins quelques informations fournies par le lien, puis de fournir le lien pour une exploration plus approfondie.
Mephy