Au-delà des grains de Fisher

Pendant un certain temps, il semblait que Fisher Kernels pourrait devenir populaire, car ils semblaient être un moyen de construire des noyaux à partir de modèles probabilistes. Cependant, je les ai rarement vu utilisés dans la pratique, et j'ai la bonne foi qu'ils ont tendance à ne pas fonctionner très bien. Ils s'appuient sur le calcul de l' information Fisher - citant Wikipedia:

l'information de Fisher est le négatif de l'espérance de la dérivée seconde par rapport à θ du logarithme naturel de f. L'information peut être considérée comme une mesure de la «courbure» de la courbe de support proche de l'estimation du maximum de vraisemblance (MLE) de θ.

Autant que je sache, cela signifie que la fonction du noyau entre deux points est alors la distance le long de cette surface courbe - ai-je raison?

Cependant, cela pourrait être problématique pour une utilisation dans les méthodes du noyau, comme

Le MLE peut être une très mauvaise estimation pour un modèle donné
La courbure de la courbe de support autour du MLE pourrait ne pas être utile pour distinguer les instances, par exemple si la surface de vraisemblance était très pointue
Cela semble jeter beaucoup d'informations sur le modèle

Si tel est le cas, existe-t-il des moyens plus modernes de construire des noyaux à partir de méthodes probabilistes? Par exemple, pourrions-nous utiliser un ensemble d'exclusion pour utiliser les estimations MAP de la même manière? Quelles autres notions de distance ou de similitude avec les méthodes probabilistes pourraient fonctionner pour construire une fonction de noyau (valide)?

machine-learning probability kernel-trick generative-models tdc
la source

Réponses:

Vous avez raison sur les trois questions que vous soulevez et votre interprétation est tout à fait juste.

Les gens ont regardé d'autres directions pour construire des noyaux à partir de modèles probabilistes:

Moreno et al. propose Kullback-Leibler bien que lorsque cela satisfait les conditions de Mercer n'était pas bien compris quand j'ai regardé ce problème en le lisant.
Jebara et al. proposer un produit intérieur dans l'espace des distributions. Ce document ressemble beaucoup à ce que vous recherchez: vous pouvez le télécharger ici .

Je les ai lus il y a un certain temps (2008), je ne sais pas comment ce domaine a évolué ces dernières années.

Il existe également des moyens non probabilistes de le faire; les gens en bioinformatique ont regardé les types de programmation dynamique des choses dans l'espace des chaînes et ainsi de suite. Ces choses ne sont pas toujours PSD et ont leurs propres problèmes.

carlosdc
la source

jmlr.org/papers/volume10/martins09a/martins09a.pdf développe une théorie des noyaux liés à la divergence KL qui sont et ne sont pas positifs-définis.

Dougal