Quelles méthodes existent pour régler les hyperparamètres SVM du noyau graphique?

10

J'ai quelques données qui existent sur un graphique . Les sommets appartiennent à l'une des deux classes , et je suis intéressé à former un SVM pour distinguer les deux classes. Un noyau approprié pour cela est le noyau de diffusion , où est le laplacien de et est un paramètre de réglage.g=(V,E)K = exp ( - β L ) , L G βyje{-1,1}K=exp(-βL),Lgβ

Le réglage du SVM nécessite une sélection d'hyperparamètres, je dois donc réglerClassiquement, nous utilisons la validation croisée pour ce problème, mais cela ne semble pas approprié ici, car l'omission d'un sommet de modifie le graphique entier, augmentant peut-être même le nombre de composants connectés! Si le nombre de composants connectés change, certains sommets deviennent inaccessibles aux autres, et nous sommes confrontés à un ensemble de données très différent de ce que nous avions commencé. Autrement dit, non seulement nous manquons le sommet supprimé , mais nous manquons également des informations sur tous les autres sommets dans le graphique qui étaient adjacents à ce sommet.i G i jθ=(β,C).jegjej

La notion de base de la validation croisée est que nous aimerions approximer comment le modèle se comportera lorsqu'il sera présenté avec de nouvelles données. Dans les problèmes standard, l'omission de certaines de vos données pour les tests ne change pas les valeurs des données d'entraînement restantes. Cependant, dans le cas des données de graphique, il n'est pas clair ce que signifie pour le modèle de voir de "nouvelles" données dans le réglage CV. L'omission de sommets ou d'arêtes peut modifier complètement les données. Par exemple, imaginez un graphe qui est un graphe à k , dans lequel un sommet a k arêtes à k sommets, et tous les autres sommets ont 1 arête. Omettre le sommet central pour construire les données d'apprentissage S S=(VS,ES)kkkSdéconnectera entièrement le graphique et la matrice du noyau sera diagonale! Mais bien sûr, il sera possible de former un modèle sur ces données de formation fournies dans . Ce qui est moins clair, c'est ce que cela signifie de tester ensuite les performances hors échantillon du modèle résultant. Recalcule-t-on la matrice du noyau pour S et fournit-elle cela pour faire des prédictions?SS

Ou, alternativement, commence-t-on par calculer la matrice du noyau de dans son intégralité et omettre les lignes et les colonnes nécessaires pour produire la matrice du noyau utilisée pour estimer la SVM? Cela présente ses propres problèmes conceptuels, car l'inclusion du nœud central dans S signifie que chaque sommet est accessible à partir de tous les autres sommets, et la matrice du noyau est dense. Cette inclusion signifiera-t-elle une fuite d'informations entre les plis et biaisera-t-elle la sortie de la validation croisée? D'une part, les données sur les nœuds centraux omis sont toujours présentes, car le nœud central omis rend le graphe connecté. Par contre, on ne sait rien des labels ySS y des nœuds omis, nous pouvons donc être à l'aise d'obtenir de cette manière des estimations hors échantillon raisonnablement impartiales.

Comment sélectionner les hyperparamètres pour des problèmes de ce type? Le CV est-il imparfait mais acceptable, ou avons-nous besoin de méthodes spécialisées? Le réglage hyperparamétrique est-il même possible dans mon contexte?

Sycorax dit de réintégrer Monica
la source
Recherchez une extension hors échantillon pour les méthodes spectrales. J'ai appliqué certaines des techniques de classification d'images dans ma thèse (en regardant en arrière maintenant, je l'aurais fait différemment). Les résultats étaient intéressants mais les modèles eux-mêmes étaient assez fragiles et pas faciles à régler.
Vladislavs Dovgalecs
@xeon Avez-vous des recommandations par où commencer à regarder cette littérature?
Sycorax dit de réintégrer Monica le

Réponses:

3

Avertissement: je ne suis pas très familier avec les noyaux de graphes, donc cette réponse peut être basée sur de fausses hypothèses. Je suis d'accord que l'omission de sommets lors du calcul de la matrice du noyau est sous-optimale. Cela dit, je ne suis pas sûr que la validation croisée soit nécessairement problématique. Votre contexte d'apprentissage est-il transduction ou induction?

β

βCβC

Marc Claesen
la source
Marc, merci de votre attention. Mon problème est inductif. Mon instinct est que vous avez raison et que nous calculons la matrice complète du noyau pour toutes les données, puis omettons les lignes et les colonnes nécessaires pour produire le noyau CV. Seriez-vous par hasard au courant de références à cet effet?
Sycorax dit Réintégrer Monica le
Pas immédiatement, mais j'ai des collègues qui travaillent sur des problèmes comparables (clustering spectral du noyau) que je peux poser. Peut-être qu'ils ont des références et / ou de meilleures idées. Mettra à jour quand j'en saurai plus.
Marc Claesen