Quel classificateur est plus précis pour une classification SVM?

10

J'apprends la classification SVM et je rencontre un problème. Je ne sais pas si ce dilemme a une terminologie.

Supposons que nous aimerions classer les patients par SVM compte tenu des échantillons de personnes en bonne santé (des deux sexes) et de personnes atteintes d'un cancer du foie (des deux sexes). Si nous étiquetons l'échantillon de personnes en bonne santé comme classe 1 et les personnes atteintes de cancer comme classe 2, nous pouvons former un SVM binaire et obtenir un classificateur 1 pour prédire tout nouveau patient. Maintenant, imaginez un autre scénario. Supposons que nous divisons d'abord tous les échantillons par sexe avant la classification SVM. Pour chaque sexe, nous étiquetons toujours les patients sains et les patients cancéreux en 2 classes et formons un SVM binaire pour obtenir respectivement le classificateur 2 et le classificateur 3 pour les échantillons féminins et masculins. La question est de savoir s'il y a une nouvelle patiente, quel classificateur, 1 ou 2, devrait être utilisé pour obtenir une prédiction plus précise? Voici le dilemme des arguments que j'ai

(1) Lorsque le nombre d'échantillons est important, la prédiction doit être plus précise. Sur la base de cet argument, le classificateur 1 semble un bon choix.

(2) Cependant, si nous divisons d'abord les échantillons en groupes féminins et masculins, le classificateur 2 semble être un meilleur choix puisque le nouveau patient (échantillon d'essai inconnu) est une femme.

Ce genre de dilemme a-t-il une terminologie ou quelqu'un connaît-il d'autres informations ou comment résoudre un problème comme celui-ci? Je ne sais même pas si c'est une question légitime et désolé pour la question naïve à l'avance. Merci

Cassie
la source
4
Cela ne peut pas être répondu en général. Peut-être que si nous savions dans quelle mesure le sexe influence le cancer et combien d'échantillons vous avez, quelle fonction de perte vous utilisez, etc. Il est probablement beaucoup plus facile d'expérimenter en utilisant la validation croisée.
adrianN
Merci. Ca a du sens. Je suppose qu'il ne devrait pas y avoir de règle générale.
Cassie
cela ressemble à une question générale de ML sur "comment dois-je faire pour utiliser ML pour résoudre ce problème". il n'y a pas de réponse standard. il est important / accepté / standard d'essayer différentes approches et de voir quelles stratégies conduisent aux résultats de prédiction les plus précis. le titre général est quelque chose comme "la représentation du problème du monde réel dans le cadre abstrait ML" ou à peu près "modélisation" et est couvert par de bonnes références std .... voir aussi stats.se
vzn

Réponses:

2

Vous devriez jeter un œil à la sélection des fonctionnalités et aux algorithmes qui automatisent ce processus. Ce n'est pas grave si vous êtes nouveau dans ML et que vous ne comprenez pas tout le processus de sélection des fonctionnalités, obtenez simplement l'intuition appropriée, puis vous pouvez utiliser une bibliothèque pour automatiser le processus.

L'idée principale d'avoir un algorithme d' apprentissage est donc que ce peut trouver les modèles les plus ... que vous pouvez faire, est l' aide lui par fournir beaucoup de données (non redondantes) et ayant une bonne pré - traitement, qui implique généralement des choses comme la sélection des fonctionnalités et la normalisation .

Sur une note amicale, lors de la mise en œuvre d'algorithmes d'apprentissage, vous ne devriez pas essayer de modifier votre ensemble de données simplement en le `` regardant '', sauf si vous avez des mesures concrètes qui attestent qu'il a besoin de modifications, plusieurs fois, il a été le cas, que l'apprentissage l'algorithme a mis un biais élevé vers les caractéristiques qui ne semblaient même pas être «liées» à distance au processus de classification. Essayez toujours d'effectuer une étape de sélection des fonctionnalités avant d'essayer de modifier vos données.

Subhayan
la source
1

une rubrique générale pour ce type d'étape du processus d'apprentissage automatique est le prétraitement des données qui, selon wikipedia, comprend «le nettoyage, la normalisation, la transformation, l'extraction et la sélection des fonctionnalités, etc.».

un autre aspect de l'apprentissage automatique est la «création du modèle». cela implique des décisions, par exemple sur le nombre de classes détectées, la «taille» ou les «dimensions» de la structure ML (par exemple, «combien de noyaux le SVM inclura-t-il», etc., à peu près analogue au choix du nombre de neurones dans un NN modèle). malheureusement, certaines références ont tendance à ignorer ou à "masquer" cette étape. mais notez son commun avec les statistiques et certains livres de statistiques auront une bonne description.

dans les approches de type ML, il est classique qu'il existe un processus itératif / de rétroaction / évolutif solide pour déterminer à la fois un prétraitement et une modélisation efficaces. l'expérimentateur essaie diverses idées de prétraitement et de modélisation et se dirige vers les plus réussies. la règle générale est "meilleures sont les prédictions, plus on est correctement [et vraisemblablement aussi réaliste ] prétraitement et modélisation", mais aussi étant donné que le sur- ajustement est soigneusement exclu.

vzn
la source