J'ai découvert les réseaux neuronaux et les SVM. Les tutoriels que j'ai lus ont souligné l'importance de la noyauisation pour les SVM. Sans fonction de noyau, les SVM ne sont qu'un classificateur linéaire. Avec la noyauisation, les SVM peuvent également incorporer des fonctionnalités non linéaires, ce qui en fait un classificateur plus puissant.
Il me semble que l'on pourrait également appliquer la noyauisation aux réseaux de neurones, mais aucun des tutoriels sur les réseaux de neurones que j'ai vus n'en a parlé. Les gens utilisent-ils couramment l'astuce du noyau avec les réseaux de neurones? Je suppose que quelqu'un doit l'avoir expérimenté pour voir si cela fait une grande différence. La noyauisation aide-t-elle les réseaux de neurones autant qu'elle aide les SVM? Pourquoi ou pourquoi pas?
(Je peux imaginer plusieurs façons d'incorporer l'astuce du noyau dans les réseaux de neurones. Une façon serait d'utiliser une fonction de noyau appropriée pour prétraiter l'entrée, un vecteur dans , dans une entrée de dimension supérieure, un vecteur dans pour . Pour les réseaux neuronaux multicouches, une autre alternative serait d'appliquer une fonction noyau à chaque niveau du réseau neuronal.)
Réponses:
Je pense que vous risquez de confondre la terminologie d'une manière qui rend le problème confus. Les SVM fonctionnent en définissant une frontière de décision linéaire, c'est-à-dire un hyperplan. On peut définir cet hyperplan en termes de produits internes entre les points. Par conséquent, si nous définissons ce produit intérieur comme étant dans un espace de dimension élevée, voire infini, ce qui ressemble à un hyperplan dans ce nouvel espace n'est pas nécessairement linéaire dans l'espace caractéristique d'origine. Donc, tout est toujours linéaire, la seule chose que nous avons faite est d'impliquer implicitement (via le nouveau produit interne) les points dans un espace de dimension supérieure. Peut-être que vous savez déjà tout cela.
Il y a 2 questions à considérer en ce qui concerne les réseaux de neurones. Le premier a été évoqué par @Yuval Filmus, car les réseaux de neurones de la couche cachée dépendent de plus que des seuls produits internes entre les points. Si vous supprimez la couche cachée, vous avez juste quelque chose comme la régression logistique, dont il existe des versions noyauées . Il y a peut-être un moyen de contourner cela, mais je ne le vois pas.
Deuxièmement, vous mentionnez le prétraitement de l'entrée en projetant dans un espace dimensionnel supérieur, mais pas infini. Les réseaux de neurones définissent une surface de décision et cette surface n'est pas contrainte d'être linéaire. Cela signifie que le gain de la projection des points dans un espace de dimension supérieure sera différent, c'est-à-dire qu'il peut faciliter la recherche d'un bon ensemble de poids, mais nous n'avons pas nécessairement rendu notre modèle plus puissant. Cela découle du théorème d'approximation universel qui nous dit, étant donné un nombre suffisamment grand d'unités cachées, nous pouvons approximer n'importe quelle fonction (sous certaines restrictions). Cette dernière déclaration est plutôt vide de sens et je déteste en quelque sorte la mentionner. En ne vous disant rien sur la façon de trouver les bons poids, cela n'apporte pas grand-chose au tableau du point de vue de l'application.
la source
L'astuce du noyau est possible pour les SVM en raison d'une propriété spéciale du processus d'apprentissage pour les SVM. Les réseaux de neurones ne semblent pas avoir cette propriété (pour autant que je sache).
la source
Je voudrais partager quelques observations que j'ai faites. Dimension d'entrée: 144. J'ai formé un réseau de neurones, et pendant l'entraînement, la sortie des couches cachées a été donnée comme entrée pour la régression logistique, et la valeur moyenne de la fonction de perte après l'ajustement du modèle a été tracée.
Nous pouvons voir qu'avec l'augmentation de la taille des calques, les entités ou la sortie des calques masqués deviennent linéairement séparables. Bien que ce soit le but de l'apprentissage du vecteur de caractéristiques noyau , le réseau de neurones semble le faire en interne.
la source