Pourquoi devrions-nous discuter des comportements de convergence de différents estimateurs dans différentes topologies?

14

Dans le premier chapitre de l'ouvrage Algebraic Geometry and Statistical Learning Theory qui parle de la convergence des estimations dans différents espaces fonctionnels, il mentionne que l'estimation bayésienne correspond à la topologie de la distribution de Schwartz, tandis que l'estimation du maximum de vraisemblance correspond à la topologie sup-normale (à la page 7):

Par exemple, sup-norme, Lp normale, topologie faible de l'espace de Hilbert L2 , topologie de distribution de Schwartz, etc. Cela dépend fortement de la topologie de l'espace des fonctions, que la convergence Kn(w)K(w) vraie ou non. L'estimation de Bayes correspond à la topologie de la distribution de Schwartz, alors que la méthode du maximum de vraisemblance ou a posteriori correspond à la sup-norme. Cette différence affecte fortement les résultats d'apprentissage dans des modèles singuliers.

et K ( w ) sont respectivement la divergence KL empirique (sommation sur les observations) et la vraie divergence KL (intégrale par rapport à la distribution des données) entre le vrai modèle et un modèle paramétrique (avec le paramètre w ).Kn(w)K(w)w

Quelqu'un peut-il donner une explication ou me dire quel endroit du livre a la justification? Je vous remercie.

Mise à jour : le contenu des droits d'auteur est supprimé.

ziyuang
la source
qu'est-ce que et K n ? KKn
Taylor
@Taylor J'ai ajouté quelques informations nécessaires.
ziyuang
Je répondrai à votre question plus tard, je connais relativement bien le livre de Watanabe. Pourtant, je n'aime pas du tout la façon dont vous citez un livre. Cela peut entraîner un problème potentiel de copyright si vous mettez des sections directement ici. Utiliser des numéros de page et taper des citations avec le dossard approprié sera un meilleur choix.
Henry.L
@ Henry.L Merci et le contenu des droits d'auteur est supprimé.
ziyuang
@Henry: Bien que je pense qu'il est utile d'être prudent et consciencieux dans la reproduction de parties d'œuvres protégées par le droit d'auteur, je pense que, dans ce cas, ziyuang n'a absolument rien à craindre. L'utilisation par le PO de petits extraits pour la critique savante relève très clairement de la doctrine (américaine) de «l'utilisation équitable». En effet, avoir la reproduction exacte peut parfois être particulièrement précieux car il supprime toutes les ambiguïtés qui pourraient être introduites par des retraitements du contenu. (Cela dit, IANAL.)
Cardinal

Réponses:

2

Pour comprendre la discussion de Watanabe, il est important de réaliser ce qu'il entendait par "singularité". La singularité (stricte) coïncide avec la notion géométrique de métrique singulière dans sa théorie.

p.10 [Watanabe]: "Un modèle statistique est dit régulier s'il est identifiable et a une métrique définie positive. Si un modèle statistique n'est pas régulier, alors il est appelé strictement singulier."p(xw)

Dans la pratique, la singularité survient généralement lorsque la métrique d'information de Fisher induite par le modèle dégénère sur la variété définie par le modèle, comme les cas de rang faible ou clairsemés dans le cadre du "machine learning".

Ce que Watanabe a dit à propos de la convergence de la divergence empirique du KL vers sa valeur théorique peut être compris comme suit. L'une des origines de la notion de divergence provient de statistiques solides. Les estimateurs M, qui incluent MLE comme cas spécial avec fonction de contraste , sont généralement discutés en utilisant une topologie faible. Il est raisonnable de discuter du comportement de convergence en utilisant une topologie faible sur l'espace M ( X ) (la variété de toutes les mesures possibles définies sur l'espace polonais Xρ(θ,δ(X))=logp(Xθ)M(X)X) car nous voulons étudier le comportement de robustesse du MLE. Un théorème classique dans [Huber] a déclaré qu'avec une fonction de divergence bien séparée . inf | θ - θ 0 | ϵ ( | D ( θ 0 , θ ) - D ( θ 0 , θ 0 ) | ) > 0D(θ0,θ)=Eθ0ρ(θ,δ)

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
et bonne approximation empirique de la fonction de contraste à la divergence, avec la régularité, nous pouvons donner une cohérence au sens ^ θ n :=arg
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
convergera vers θ 0 dans la probabilité P θ 0 . Ce résultat nécessite des conditions beaucoup plus précises si l'on compare avec le résultat de Doob [Doob] en faible cohérence de l'estimateur bayésien.
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

Voici donc les estimateurs bayésiens et les MLE divergent. Si nous utilisons encore une topologie faible pour discuter de la cohérence des estimateurs bayésiens, cela n'a aucun sens car les estimateurs bayésiens seront toujours (avec une probabilité un) cohérents par Doob. Par conséquent, une topologie plus appropriée est la topologie de distribution de Schwarz qui permet des dérivées faibles et la théorie de von Mises est entrée en jeu. Barron avait un très bon rapport technique sur ce sujet, comment utiliser le théorème de Schwartz pour obtenir une cohérence.

D

Le "résultat d'apprentissage singulier" est affecté parce que, comme nous le voyons, le théorème de cohérence de Doob garantit que les estimateurs bayésiens sont faiblement cohérents (même dans le modèle singulier) dans une topologie faible tandis que MLE doit répondre à certaines exigences dans la même topologie.

Juste un mot, [Watanabe] n'est pas pour les débutants. Il a des implications profondes sur les ensembles analytiques réels qui nécessitent plus de maturité mathématique que la plupart des statisticiens, il n'est donc probablement pas une bonne idée de le lire sans des conseils appropriés.

[Watanabe] Watanabe, Sumio. Géométrie algébrique et théorie de l'apprentissage statistique. Vol. 25. Cambridge University Press, 2009.

[Huber] Huber, Peter J. "Le comportement des estimations du maximum de vraisemblance dans des conditions non standard." Actes du cinquième symposium de Berkeley sur les statistiques mathématiques et les probabilités. Vol. 1. N ° 1. 1967.

[Doob] Doob, Joseph L. "Application de la théorie des martingales." Le calcul des probabilités et ses applications (1949): 23-27.

Henry.L
la source
J'essaie de donner une certaine intuition pour certaines parties de la réponse, alors corrigez-moi si je me trompe. L'estimateur de Bayes est cohérent si nous le considérons comme un estimateur ponctuel (MAP, plutôt que comme une distribution probabiliste). Il nécessite moins de conditions pour sa cohérence que MLE intuitivement en raison de l'action préalable de régularisation. D'un autre côté, la topologie de distribution de Schwartz est plus appropriée lorsque nous considérons l'estimateur de Bayes comme une distribution, elle aide également à établir une relation plus étroite entre la cohérence de MLE et l'estimateur de Bayes, de sorte que le cas où l'un diverge et l'autre converge ne se produira pas .
ziyuang
Désolé mais je ne pense pas que votre explication soit correcte. L'avant agit comme une régularisation mais cela ne contrôle pas nécessairement le taux de convergence. En fait, les antérieurs plats ralentissent la convergence. Ce sont simplement deux topologies différentes.
Henry.L