Où puis-je trouver des ensembles de données utiles pour tester mes propres implémentations Machine Learning? [fermé]

9

J'essaie actuellement d'implémenter moi-même certains algorithmes d'apprentissage automatique. Beaucoup d'entre eux ont la propriété désagréable d'être difficile à déboguer, certains bogues ne provoquent pas le plantage du programme, mais fonctionnent plutôt comme prévu et semblent que les algorithmes donnent juste des résultats plus faibles.

Je voudrais avoir un moyen d'augmenter ma confiance dans l'implémentation, par exemple si j'avais quelques petits jeux de données, avec des informations supplémentaires "Les algorithmes X ont fonctionné pour les itérations Y et ont eu les résultats Z sur ce jeu de données", ce serait vraiment utile. Quelqu'un a-t-il entendu parler de ces ensembles de données?

sjm.majewski
la source
Quelles recherches avez-vous faites pour enquêter sur cette question? À première vue, on pourrait penser que la documentation que vous utilisez pour trouver ces algorithmes serait remplie d'exemples de jeux de données.
whuber
1
Eh bien, je connais surtout le ML à travers des cours universitaires, Coursea, des vidéos de conférences sur Internet et quelques articles que j'ai lus sur des sujets spécifiques. Je sais qu'il existe de nombreux exemples de jeux de données partout, mais j'en cherche quelques-uns avec des informations sur la façon dont différents algorithmes ML ont fonctionné sur eux, afin que je puisse valider mes propres implémentations.
sjm.majewski
Récemment, l'ICML a publié un bon article sur le problème des ensembles de données standardisés - qui vous empêche de trop réfléchir aux problèmes du monde réel et au désordre qu'impliquent les problèmes du monde réel. Personnellement, lorsque j'ai commencé à utiliser des données du monde réel, mes compétences de praticien se sont épanouies. Donc, même si je ne vous découragerais pas d'utiliser des choses comme l'UCI comme tremplin ou test, gardez l'œil sur le prix!
Patrick Caldon
1
Vous devez spécifier le type d'apprentissage automatique que vous effectuez. Les ensembles de données de classification binaire sont différents des ensembles de données d'approximation de fonction (régression).
Douglas Zare

Réponses:

10

Depuis le référentiel UC Irvine Machine Learning :

Nous maintenons actuellement 223 ensembles de données en tant que service pour la communauté d'apprentissage automatique. Vous pouvez afficher tous les ensembles de données via notre interface de recherche. Notre ancien site web est toujours disponible, pour ceux qui préfèrent l'ancien format. ... Si vous souhaitez faire don d'un ensemble de données, veuillez consulter notre politique de don. ... Nous avons également mis en place un site miroir pour le référentiel.

De plus, l' ensemble de données MIAS suivant a été largement utilisé et étudié:

Lors de l'analyse comparative d'un algorithme, il est recommandé d'utiliser une base de données de test standard (ensemble de données) pour que les chercheurs puissent comparer directement les résultats. La plupart des bases de données mammographiques ne sont pas accessibles au public. Les bases de données les plus faciles d'accès et, par conséquent, les bases de données les plus couramment utilisées sont la base de données MAM (Mammographic Image Analysis Society) et la base de données numérique pour la mammographie de dépistage (DDSM). En outre, il existe actuellement peu de projets développant de nouvelles bases de données d'images mammographiques ainsi que plusieurs anciens projets.

deepML
la source
2
+1 Si vous continuez à trouver plus de sources, n'hésitez pas à compléter cette réponse.
whuber
5

Le référentiel UCI mentionné par Bashar est probablement le plus grand, néanmoins je voulais ajouter quelques petites collections que j'ai rencontrées:

sebp
la source