Le tableau 18.1 des éléments de l'apprentissage statistique résume les performances de plusieurs classificateurs sur un ensemble de données de 14 classes. Je compare un nouvel algorithme avec le lasso et le filet élastique pour de tels problèmes de classification multiclasse.
En utilisant la glmnet
version 1.5.3 (R 2.13.0), je ne suis pas en mesure de reproduire le point 7. (le multinomial -pénalisé) dans le tableau, où le nombre de gènes utilisés est de 269 et l'erreur de test est de 13. de 54. Les données utilisées sont cet ensemble de données de microréseaux de 14 cancers . Quoi que j'aie essayé, j'obtiens un modèle le plus performant en utilisant au voisinage de 170 à 180 gènes avec une erreur de test de 16 sur 54.
Notez qu'au début de la section 18.3, page 654, un certain prétraitement des données est décrit.
J'ai contacté les auteurs - jusqu'à présent sans réponse - et je demande si quelqu'un peut confirmer qu'il y a un problème dans la reproduction du tableau ou fournir une solution sur la façon de reproduire le tableau.
Réponses:
avez-vous vérifié le paquet R du livre? il contient tous les jeux de données, la fonction et la plupart des scripts utilisés ici ...
la source