Je pense que la machine vectorielle de support de base signifie SVM à marge dure. Alors, passons en revue:
En bref, nous voulons trouver un hyperplan avec la plus grande marge qui puisse séparer correctement toutes les observations dans notre espace d'échantillonnage de formation.
Le problème d'optimisation dans SVM à marge dure
Compte tenu de la définition ci-dessus, quel est le problème d'optimisation que nous devons résoudre?
- Le plus grand hyperplan de marge: nous voulons
max(margin)
- Être capable de séparer correctement toutes les observations: nous devons optimiser
margin
et satisfaire également la contrainte: pas d'erreurs dans l'échantillon
Que se passe-t-il lorsque nous formons un SVM linéaire sur des données non linéairement séparables?
Revenons à votre question, puisque vous avez mentionné que l'ensemble de données de formation n'est pas séparable linéairement, en utilisant SVM à marge dure sans transformations de fonctionnalités, il est impossible de trouver un hyperplan qui satisfait "Aucune erreur dans l'échantillon" .
Normalement, nous résolvons le problème d'optimisation SVM par programmation quadratique, car il peut effectuer des tâches d'optimisation avec des contraintes. Si vous utilisez Gradient Descent ou d'autres algorithmes d'optimisation qui sans satisfaire aux contraintes de SVM à marge dure, vous devriez toujours obtenir un résultat, mais ce n'est pas un hyperplan SVM à marge dure.
Soit dit en passant, avec des données non linéairement séparables, nous choisissons généralement
- transformations de fonctionnalités SVM + à marge fixe
- utiliser directement le SVM à marge douce (Dans la pratique, le SVM à marge douce obtient généralement de bons résultats)