Pendant un certain temps, il semblait que Fisher Kernels pourrait devenir populaire, car ils semblaient être un moyen de construire des noyaux à partir de modèles probabilistes. Cependant, je les ai rarement vu utilisés dans la pratique, et j'ai la bonne foi qu'ils ont tendance à ne pas fonctionner très bien. Ils s'appuient sur le calcul de l' information Fisher - citant Wikipedia:
l'information de Fisher est le négatif de l'espérance de la dérivée seconde par rapport à θ du logarithme naturel de f. L'information peut être considérée comme une mesure de la «courbure» de la courbe de support proche de l'estimation du maximum de vraisemblance (MLE) de θ.
Autant que je sache, cela signifie que la fonction du noyau entre deux points est alors la distance le long de cette surface courbe - ai-je raison?
Cependant, cela pourrait être problématique pour une utilisation dans les méthodes du noyau, comme
- Le MLE peut être une très mauvaise estimation pour un modèle donné
- La courbure de la courbe de support autour du MLE pourrait ne pas être utile pour distinguer les instances, par exemple si la surface de vraisemblance était très pointue
- Cela semble jeter beaucoup d'informations sur le modèle
Si tel est le cas, existe-t-il des moyens plus modernes de construire des noyaux à partir de méthodes probabilistes? Par exemple, pourrions-nous utiliser un ensemble d'exclusion pour utiliser les estimations MAP de la même manière? Quelles autres notions de distance ou de similitude avec les méthodes probabilistes pourraient fonctionner pour construire une fonction de noyau (valide)?