Je suis nouveau dans l'apprentissage automatique et je recherche des ensembles de données à travers lesquels je peux comparer et contraster les différences entre les différents algorithmes d'apprentissage automatique (Arbres de décision, Boosting, SVM et Réseaux de neurones)
Où puis-je trouver de tels ensembles de données? Que dois-je rechercher tout en envisageant un ensemble de données?
Ce serait formidable si vous pouviez pointer vers de bons ensembles de données et aussi me dire ce qui en fait un bon ensemble de données?
machine-learning
dataset
Lapin
la source
la source
Réponses:
Les jeux de données des sites suivants sont disponibles gratuitement. Ces ensembles de données ont été utilisés pour enseigner les algorithmes ML aux étudiants parce que pour la plupart, il existe des descriptions avec les ensembles de données. En outre, il a été mentionné le type d'algorithmes applicables.
la source
Kaggle dispose d'une multitude d'ensembles de données que vous pouvez utiliser pour vous entraîner.
(Je suis surpris que cela n'ait pas été mentionné jusqu'à présent!)
Il a deux choses (parmi beaucoup d'autres) qui en font une ressource très précieuse:
la source
Tout d'abord, je vous recommande de commencer par les exemples de données fournis avec le logiciel. La plupart des distributions de logiciels incluent des exemples de données que vous pouvez utiliser pour vous familiariser avec l'algorithme sans avoir à traiter les types de données et à lutter contre les données dans le bon format pour l'algorithme. Même si vous créez un algorithme à partir de zéro, vous pouvez commencer avec l'exemple d'une implémentation similaire et comparer les performances.
Deuxièmement, je recommanderais d'expérimenter avec des ensembles de données synthétiques pour avoir une idée de la façon dont l'algorithme fonctionne lorsque vous savez comment les données ont été générées et le rapport signal / bruit.
Dans R, vous pouvez répertorier tous les ensembles de données dans les packages actuellement installés avec cette commande:
Le package R mlbench possède de vrais ensembles de données et peut générer des ensembles de données synthétiques qui sont utiles pour étudier les performances des algorithmes.
Scikit-learn de Python contient des exemples de données et génère également un jeu de données synthétique / jouet.
SAS propose un ensemble de données de formation à télécharger et les exemples de données SPSS sont installés avec le logiciel à l'adresse C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Enfin, je regarderais les données dans la nature. Je comparerais les performances de différents algorithmes et paramètres de réglage sur des ensembles de données réels. Cela nécessite généralement beaucoup plus de travail car vous trouverez rarement un ensemble de données avec des types de données et des structures que vous pouvez insérer directement dans vos algorithmes.
Pour les données dans la nature, je recommanderais:
Archive des jeux de données de reddit
Liste de KDnugget
la source
L' ensemble de données Iris haut la main. C'est aussi en base R.
la source
À mon avis, vous pouvez commencer par de petits ensembles de données qui n'ont pas trop de fonctionnalités.
Un exemple serait l' ensemble de données Iris (pour la classification). Il a 3 classes, 50 échantillons pour chaque classe totalisant 150 points de données. Une excellente ressource pour vous aider à explorer cet ensemble de données est cette série de vidéos de Data School.
Un autre ensemble de données à vérifier est l'ensemble de données Wine Quality du référentiel UCI -ML. Il a 4898 points de données avec 12 attributs.
la source