j'ai un ensemble de données strictement binaire. l'ensemble de valeurs de chaque variable appartient au domaine: vrai, faux.
la propriété "spéciale" de cet ensemble de données est qu'une écrasante majorité des valeurs sont "fausses".
j'ai déjà utilisé un algorithme d'apprentissage de réseau bayésien pour apprendre un réseau à partir des données. cependant, pour l'un de mes nœuds cibles (le plus important étant la mort), le résultat AUC n'est pas très bon; c'est un peu mieux que le hasard. même la valeur prédictive positive (VPP), qui m'a été suggérée sur CV, n'était pas en concurrence avec ce qui est rapporté dans la littérature avec d'autres approches. noter que l'ASC (analyse ROC) est le point de référence typique rapporté dans ce domaine de la recherche clinique, mais je suis également ouvert à des suggestions sur la façon de mieux référencer le modèle de classification s'il y a d'autres idées.
donc, je me demandais quels autres modèles de classification je peux essayer pour ce type de jeu de données avec cette propriété (principalement de fausses valeurs).
- prendrait en charge l'aide de la machine vectorielle? pour autant que je sache, SVM ne traite que des variables continues comme prédicteurs (bien qu'il ait été adapté à plusieurs classes). mais mes variables sont toutes binaires.
- une forêt aléatoire aiderait-elle?
- la régression logistique s'appliquerait-elle ici? pour autant que je sache, les prédicteurs de la régression logistique sont également continus. existe-t-il une version généralisée pour les variables binaires comme prédicteurs?
en dehors des performances de classification, je soupçonne que SVM et la forêt aléatoire pourraient très bien surpasser le réseau bayésien, mais le problème se déplace sur la façon d'expliquer les relations dans ces modèles (en particulier aux cliniciens).
Réponses:
Les variables binaires ne sont pas un problème pour SVM. Même des noyaux spécialisés existent pour exactement de telles données (noyau Hamming, noyau Tanimoto / Jaccard), bien que je ne recommande pas de les utiliser si vous n'êtes pas intimement familiarisé avec les méthodes du noyau.
La régression logistique fonctionne avec des prédicteurs binaires. C'est probablement votre meilleure option.
Si vous utilisez SVM linéaire, il est assez simple d'expliquer ce qui se passe. La régression logistique est cependant une meilleure option, car la plupart des cliniciens connaissent réellement ces modèles (et j'entends par là que j'en ai entendu parler ).
la source
Je voudrais partager mon expérience de classification d'environ 0,3 million de données binaires avec une majorité de fausses valeurs. J'ai utilisé SVM linéaire, arbres complexes, LDA, QDA, régression logistique, etc. Toutes ces méthodes avaient une efficacité d'environ 54%, ce qui n'est pas bon. Selon mon professeur, les méthodes de classification qui pourraient m'aider dans ce problème sont les réseaux neuronaux, SVM quadratique mais je ne les ai pas testés. J'espère que cela pourrait aider.
la source