J'essaie actuellement d'implémenter moi-même certains algorithmes d'apprentissage automatique. Beaucoup d'entre eux ont la propriété désagréable d'être difficile à déboguer, certains bogues ne provoquent pas le plantage du programme, mais fonctionnent plutôt comme prévu et semblent que les algorithmes donnent juste des résultats plus faibles.
Je voudrais avoir un moyen d'augmenter ma confiance dans l'implémentation, par exemple si j'avais quelques petits jeux de données, avec des informations supplémentaires "Les algorithmes X ont fonctionné pour les itérations Y et ont eu les résultats Z sur ce jeu de données", ce serait vraiment utile. Quelqu'un a-t-il entendu parler de ces ensembles de données?
Réponses:
Depuis le référentiel UC Irvine Machine Learning :
De plus, l' ensemble de données MIAS suivant a été largement utilisé et étudié:
la source
Le référentiel UCI mentionné par Bashar est probablement le plus grand, néanmoins je voulais ajouter quelques petites collections que j'ai rencontrées:
la source