Dans le premier chapitre de l'ouvrage Algebraic Geometry and Statistical Learning Theory qui parle de la convergence des estimations dans différents espaces fonctionnels, il mentionne que l'estimation bayésienne correspond à la topologie de la distribution de Schwartz, tandis que l'estimation du maximum de vraisemblance correspond à la topologie sup-normale (à la page 7):
Par exemple, sup-norme, normale, topologie faible de l'espace de Hilbert , topologie de distribution de Schwartz, etc. Cela dépend fortement de la topologie de l'espace des fonctions, que la convergence vraie ou non. L'estimation de Bayes correspond à la topologie de la distribution de Schwartz, alors que la méthode du maximum de vraisemblance ou a posteriori correspond à la sup-norme. Cette différence affecte fortement les résultats d'apprentissage dans des modèles singuliers.
où et K ( w ) sont respectivement la divergence KL empirique (sommation sur les observations) et la vraie divergence KL (intégrale par rapport à la distribution des données) entre le vrai modèle et un modèle paramétrique (avec le paramètre w ).
Quelqu'un peut-il donner une explication ou me dire quel endroit du livre a la justification? Je vous remercie.
Mise à jour : le contenu des droits d'auteur est supprimé.
Réponses:
Pour comprendre la discussion de Watanabe, il est important de réaliser ce qu'il entendait par "singularité". La singularité (stricte) coïncide avec la notion géométrique de métrique singulière dans sa théorie.
Dans la pratique, la singularité survient généralement lorsque la métrique d'information de Fisher induite par le modèle dégénère sur la variété définie par le modèle, comme les cas de rang faible ou clairsemés dans le cadre du "machine learning".
Ce que Watanabe a dit à propos de la convergence de la divergence empirique du KL vers sa valeur théorique peut être compris comme suit. L'une des origines de la notion de divergence provient de statistiques solides. Les estimateurs M, qui incluent MLE comme cas spécial avec fonction de contraste , sont généralement discutés en utilisant une topologie faible. Il est raisonnable de discuter du comportement de convergence en utilisant une topologie faible sur l'espace M ( X ) (la variété de toutes les mesures possibles définies sur l'espace polonais Xρ(θ,δ(X))=−logp(X∣θ) M(X) X ) car nous voulons étudier le comportement de robustesse du MLE. Un théorème classique dans [Huber] a déclaré qu'avec une fonction de divergence bien séparée . inf | θ - θ 0 | ≥ ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)
Voici donc les estimateurs bayésiens et les MLE divergent. Si nous utilisons encore une topologie faible pour discuter de la cohérence des estimateurs bayésiens, cela n'a aucun sens car les estimateurs bayésiens seront toujours (avec une probabilité un) cohérents par Doob. Par conséquent, une topologie plus appropriée est la topologie de distribution de Schwarz qui permet des dérivées faibles et la théorie de von Mises est entrée en jeu. Barron avait un très bon rapport technique sur ce sujet, comment utiliser le théorème de Schwartz pour obtenir une cohérence.
Le "résultat d'apprentissage singulier" est affecté parce que, comme nous le voyons, le théorème de cohérence de Doob garantit que les estimateurs bayésiens sont faiblement cohérents (même dans le modèle singulier) dans une topologie faible tandis que MLE doit répondre à certaines exigences dans la même topologie.
Juste un mot, [Watanabe] n'est pas pour les débutants. Il a des implications profondes sur les ensembles analytiques réels qui nécessitent plus de maturité mathématique que la plupart des statisticiens, il n'est donc probablement pas une bonne idée de le lire sans des conseils appropriés.
[Watanabe] Watanabe, Sumio. Géométrie algébrique et théorie de l'apprentissage statistique. Vol. 25. Cambridge University Press, 2009.
[Huber] Huber, Peter J. "Le comportement des estimations du maximum de vraisemblance dans des conditions non standard." Actes du cinquième symposium de Berkeley sur les statistiques mathématiques et les probabilités. Vol. 1. N ° 1. 1967.
[Doob] Doob, Joseph L. "Application de la théorie des martingales." Le calcul des probabilités et ses applications (1949): 23-27.
la source