Différence entre ep-SVR et nu-SVR (et SVR des moindres carrés)

11

J'essaie de savoir quel SVR est adapté à ce type de données.

Je connais 4 types de SVR:

  • epsilon
  • nu
  • moindres carrés et
  • linéaire.

Je comprends que le SVR linéaire ressemble plus ou moins au lasso avec L1 Reg, mais quelle est la différence entre les 3 techniques restantes?

Sharath Chandra
la source

Réponses:

11

Dans -SVR, le paramètre est utilisé pour déterminer la proportion du nombre de vecteurs de support que vous souhaitez conserver dans votre solution par rapport au nombre total d'échantillons dans l'ensemble de données. Dans -SVR, le paramètre est introduit dans la formulation du problème d'optimisation et il est estimé automatiquement (de manière optimale) pour vous.νννϵ

Cependant, dans -SVR, vous n'avez aucun contrôle sur le nombre de vecteurs de données de l'ensemble de données qui deviennent des vecteurs de support, cela peut être quelques-uns, cela peut être plusieurs. Néanmoins, vous aurez un contrôle total sur la quantité d'erreur que vous autoriserez à votre modèle, et tout ce qui dépasse le spécifié sera pénalisé proportionnellement à , qui est le paramètre de régularisation.ϵϵC

Selon ce que je veux, je choisis entre les deux. Si je suis vraiment à la recherche d'une petite solution (moins de vecteurs de support), je choisis -SVR et j'espère obtenir un modèle décent. Mais si je veux vraiment contrôler la quantité d'erreur dans mon modèle et opter pour les meilleures performances, je choisis -SVR et j'espère que le modèle n'est pas trop complexe (beaucoup de vecteurs de support).νϵ

Pablo Rivas
la source
5

La différence entre -SVR et -SVR est la façon dont le problème de formation est paramétré. Les deux utilisent un type de perte de charnière dans la fonction de coût. Le paramètre dans -SVM peut être utilisé pour contrôler la quantité de vecteurs de support dans le modèle résultant. Étant donné les paramètres appropriés, le même problème exact est résolu. 1ϵννν

Le SVR des moindres carrés diffère des deux autres en utilisant des résidus au carré dans la fonction de coût au lieu de la perte de charnière.

1 : C.-C. Chang et C.-J. Lin. Formation à la régression vectorielle de soutien : théorie et algorithmesν . Neural Computation, 14 (8): 1959-1977, 2002.

Marc Claesen
la source
Merci pour ta réponse Marc. Pouvons-nous donc distinguer la méthode appropriée en fonction de l'ensemble de données dont nous disposons? Si oui, pouvez-vous me donner quelques conseils? J'ai 40000 échantillons avec 200 sorties distinctes. Il peut donc être considéré comme 200 ensembles de 200 échantillons uniques. Les entrées pour les 40000 sont cependant différentes, seule la sortie est unique pour 200 échantillons.
Sharath Chandra
0

J'aime les réponses de Pablo et Marc. Un point supplémentaire:

Dans l'article cité par Marc, il est écrit (section 4)

νϵϵϵy

[...]

ϵyϵ[-1,+1]ϵ[0,1]νϵ

ϵϵ-ν-

Qu'est-ce que tu penses?

spec3
la source