Quels sont les ensembles de données librement disponibles pour la classification avec plus de 1000 entités (ou des points d’échantillons s’il contient des courbes)?
Il existe déjà un wiki de la communauté sur les jeux de données gratuits: Recherche d'échantillons de données disponibles gratuitement
Mais ici, il serait bien d’avoir une liste plus précise qui puisse être utilisée plus facilement . Je propose également les règles suivantes:
- Un post par jeu de données
- Aucun lien vers le jeu de données
chaque ensemble de données doit être associé à
un nom (pour comprendre de quoi il s'agit) et un lien vers le jeu de données (les jeux de données R peuvent être nommés avec le nom du paquet)
le nombre d'entités (disons que c'est p ) la taille de l'ensemble de données (disons que c'est n ) et le nombre d'étiquettes / classe (disons que c'est k )
un taux d'erreur typique de votre expérience (indiquez l'algorithme utilisé en mots) ou de la littérature (dans ce dernier cas, reliez le document)
la source
Réponses:
Dorothea
n = 1950
p = 100000 (0,1 M, la moitié est du bruit ajouté artificiellement)
k = 2 (~ 10x non équilibré)
From NIPS2003 .
la source
Gisette
n = 13500
p = 5000 (la moitié est du bruit ajouté artificiellement)
k = 2 (équilibré)
À partir de NIPS2003 .
la source
Dexter
n = 2600
p = 20000 (10k + 53 est un bruit artificiel)
k = 2 (équilibré)
À partir de NIPS2003 .
la source
Arcene
n = 900
p = 10 000 (3k est du bruit ajouté artificiellement)
k = 2 (~ équilibré)
À partir de NIPS2003 .
la source
Prostate (tableau d'expression génique)
Disponible via (parmi d'autres) R package Spls nom de l'ensemble de données: prostate
taux d'erreur = 3/102 (voir ici ) aussi je pense qu'il y a du papier qui montre le taux d'erreur 1/102. Je dirais que c'est un cas de test facile.
la source