Intuition graphique des statistiques sur une variété

Sur ce poste , vous pouvez lire la déclaration:

Les modèles sont généralement représentés par des points sur une variété de dimensions finies. $\theta$

Sur la géométrie différentielle et les statistiques par Michael K Murray et John W Rice, ces concepts sont expliqués en prose lisible, même en ignorant les expressions mathématiques. Malheureusement, il y a très peu d'illustrations. Il en va de même pour ce post sur MathOverflow.

Je veux demander de l'aide avec une représentation visuelle pour servir de carte ou de motivation vers une compréhension plus formelle du sujet.

Quels sont les points sur le collecteur? Cette citation de cette découverte en ligne indique apparemment qu'il peut s'agir des points de données ou des paramètres de distribution:

Les statistiques sur les variétés et la géométrie de l'information sont deux façons différentes par lesquelles la géométrie différentielle rencontre les statistiques. Alors que dans les statistiques sur les variétés, ce sont les données qui se trouvent sur une variété, dans la géométrie de l'information, les données sont dans , mais la famille paramétrée des fonctions de densité de probabilité d'intérêt est traitée comme une variété. Ces variétés sont connues sous le nom de variétés statistiques. $R^n$

J'ai dessiné ce schéma inspiré de cette explication de l'espace tangent ici :

[ Modifier pour refléter le commentaire ci-dessous sur : $C^\infty$ ] Sur une variété, , l'espace tangent est l'ensemble de toutes les dérivées possibles ("vitesses") en un point associé à toutes les courbes possibles sur le collecteur passant parCela peut être vu comme un ensemble de cartes de chaque courbe traversant c'est dire défini comme la composition , avec désignant une courbe (fonction de la ligne réelle à la surface de la variété $(\mathcal M)$ $p\in \mathcal M$ $(\psi: \mathbb R \to \mathcal M)$ $p.$ $p,$ $C^\infty (t)\to \mathbb R,$ $\left(f \circ \psi \right )'(t)$ $\psi$ $\mathcal M$ ) passant par le point et représenté en rouge sur le schéma ci-dessus; et représentant une fonction de test. Les « iso- » lignes de contour blanc carte sur le même point sur la ligne réelle, et entourent le point . $p,$ $f,$ $f$ $p$

L'équivalence (ou l'une des équivalences appliquées aux statistiques) est discutée ici et se rapporterait à la citation suivante :

Si l'espace des paramètres d'une famille exponentielle contient un ensemble ouvert dimensionnel , il est alors appelé rang complet. $s$

Une famille exponentielle qui n'est pas de rang complet est généralement appelée une famille exponentielle courbe, car généralement l'espace des paramètres est une courbe en de dimension inférieure à $\mathcal R^s$ $s.$

Cela semble rendre l'interprétation de l'intrigue comme suit: les paramètres de distribution (dans ce cas des familles de distributions exponentielles) se trouvent sur la variété. Les points de données dans correspondraient à une ligne sur le collecteur via la fonction dans le cas d'un problème d'optimisation non linéaire avec un manque de rang. Cela correspondrait au calcul de la vitesse en physique: recherche de la dérivée de la fonction long du gradient des lignes "iso-f" (dérivée directionnelle en orange):La fonction jouerait le rôle d'optimiser la sélection d'un paramètre de distribution comme courbe $\mathbb R$ $\psi: \mathbb R \to \mathcal M$ $f$ $\left(f \circ \psi \right)'(t).$ $f: \mathbb M \to \mathbb R$ $\psi$ se déplace le long des courbes de niveau de sur le collecteur. $f$

CONTEXTE AJOUTÉ:

Il convient de noter que ces concepts ne sont pas immédiatement liés à la réduction de la dimensionnalité non linéaire du ML. Ils ressemblent davantage à la géométrie de l'information . Voici une citation:

Surtout, les statistiques sur les variétés sont très différentes de l'apprentissage des variétés. Ce dernier est une branche de l'apprentissage automatique dont le but est d'apprendre une variété latente à partir de données évaluées par . Typiquement, la dimension du collecteur latent recherché est inférieure à . Le collecteur latent peut être linéaire ou non linéaire, selon la méthode particulière utilisée. $R^n$ $n$

Les informations suivantes de Statistics on Manifolds with Applications to Modeling Shape Deformations by Oren Freifeld :

Alors que est généralement non linéaire, on peut associer un espace de tangente, notée , à chaque point . est un espace vectoriel dont la dimension est la même que celle de . L'origine de est à la . Si est intégré dans un espace euclidien, nous pouvons penser à comme un sous-espace affine tel que: 1) il touche à ; 2) au moins localement, repose complètement sur l'un de ses côtés. Les éléments de TpM sont appelés vecteurs tangents. $M$ $TpM$ $p \in M$ $TpM$ $M$ $TpM$ $p$ $M$ $TpM$ $M$ $p$ $M$

[...] Sur les variétés, les modèles statistiques sont souvent exprimés dans des espaces tangents.

[...]

[Nous considérons deux] ensembles de données constitués de points dans : $M$

$D_L = \{p_1, \cdots , p_{NL}\} \subset M$ ;

$D_S = \{q_1, \cdots , q_{NS}\} \subset M$

Soit et représentent deux, peut - être inconnu, points . On suppose que les deux ensembles de données satisfont aux règles statistiques suivantes: $µ_L$ $µ_S$ $M$

$\{\log_{\mu L} (p_1), \cdots , \log_{\mu L}(p_{NL})\} \subset T_{\mu L}M, \quad \log_{\mu L}(p_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_L)$ $\{\log_{\mu S} (q_1), \cdots , \log_{\mu S}(q_{NS})\} \subset T_{\mu S}M, \quad \log_{\mu S}(q_i) \overset{\text{i.i.d}}{\sim} \mathscr N(0, \Sigma_S)$

[...]

En d'autres termes, lorsque est exprimé (sous forme de vecteurs tangents) dans l'espace tangent (à ) à , il peut être vu comme un ensemble d'échantillons iid à partir d'un gaussien à moyenne nulle avec covariance . De même, lorsque est exprimé dans l'espace tangent à il peut être vu comme un ensemble d'échantillons iid d'un gaussien à moyenne nulle avec covariance . Cela généralise le cas euclidien. $D_L$ $M$ $\mu_L$ $\Sigma_L$ $D_S$ $\mu_S$ $\Sigma_S$

Sur la même référence, je trouve en ligne l'exemple le plus proche (et pratiquement le seul) de ce concept graphique que je demande:

Cela indiquerait-il que des données se trouvent à la surface du collecteur exprimées en vecteurs tangents et que les paramètres seraient mappés sur un plan cartésien?

distributions manifold-learning information-geometry topologies Antoni Parellada
la source

Qu'est-ce que vous essayez de faire ici? Dessiner des collecteurs? La plupart d'entre eux sont trop ennuyeux pour dessiner. Par exemple, essayez la distribution gaussienne.

Aksakal

Je considérerais normalement les espaces de paramètres comme des espaces vectoriels, par exemple . Si je pensais aux "variétés" paramétriques, la première chose qui me vient à l'esprit serait les "systèmes de contraintes", par exemple . Sinon, pourquoi l'espace n'est-il pas "complet"? (Qu'est-ce qui définit le sous-ensemble qui est le "collecteur"?)

θ \in R^{n}

$\theta\in\mathbb{R}^n$

f (θ) = 0

$f(\theta)=0$

GeoMatt22

J'espère que @whuber viendra et développera les commentaires qu'il faisait lors du chat.

gung - Rétablir Monica

La réponse courte à votre question modifiée est «non». L'espace tangent décrit les vitesses de tous les chemins lisses dans le collecteur. Son rôle principal en statistique est de maximiser les probabilités, où la variété décrit une famille finement paramétrée. Dans «l'apprentissage multiple», un collecteur est utilisé comme approximation locale des données - c'est une version courbe de «l'espace de colonne» en régression linéaire. Là, l'espace tangent est intégré dans l'espace euclidien ambiant. Localement, il décrit les «directions» des données et son paquet normal donne les directions «d'erreur».

whuber

Oui: l'espace cotangent en peut être défini comme les dérivations de germes de fonctions autour de . L'espace tangent en (donc!) Est simplement son dual. et acquérir une topologie - qui est, admettre une notion de deux espaces tangents et étant « proche » - au moyen des coordonnées graphiques sur . Cela réduit la définition (et le problème de visualisation) à celle de définir l'espace tangent . Il s'agit de l'ensemble de tous les vecteurs provenant de . Spivak, en calcul sur les collecteurs

T_{p}^{*} M

$T_p^{*}M$

p

$p$

p

$p$

p

$p$

T^{*} M

$T^{*}M$

T M

$TM$

T_{p} M

$T_pM$

T_{q} M

$T_qM$

M

$M$

T_{x} R^{n}

$T_x\mathbb{R}^n$

x

$x$ , fournit une définition claire et élémentaire de ce type.

whuber

Réponses:

Une famille de distributions de probabilité peut être analysée comme les points sur une variété avec des coordonnées intrinsèques correspondant aux paramètres de la distribution. L'idée est d'éviter une représentation avec une métrique incorrecte: Gaussiens univariés peuvent être tracés sous forme de points dans la variété euclidienne comme sur le côté droit du tracé ci-dessous avec la moyenne dans l' axe des et la SD dans l' axe des (moitié positive dans le cas du tracé de la variance): $(\Theta)$ $\mathcal N(\mu,\sigma^2),$ $\mathbb R^2$ $x$ $y$

Cependant, la matrice d'identité (distance euclidienne) ne parviendra pas à mesurer le degré de (dis-) similitude entre les individuels : sur les courbes normales à gauche du graphique ci-dessus, étant donné un intervalle dans le domaine, la zone sans chevauchement (en bleu foncé) est plus grande pour les courbes gaussiennes avec une variance plus faible, même si la moyenne est maintenue fixe. En fait, la seule métrique riemannienne qui «a du sens» pour les variétés statistiques est la métrique d'information de Fisher . $\mathrm{pdf}$

Dans Fisher information distance: une lecture géométrique , Costa SI, Santos SA et Strapasson JE profitent de la similitude entre la matrice d'informations Fisher des distributions gaussiennes et la métrique du modèle de disque de Beltrami-Pointcaré pour dériver une formule fermée.

Le cône "nord" de l'hyperboloïde devient une variété non euclidienne, dans laquelle chaque point correspond à un écart moyen et standard (espace des paramètres), et la distance la plus courte entre par exemple et dans le diagramme ci-dessous, est une courbe géodésique, projetée (carte cartographique) sur le plan équatorial sous forme de lignes droites hyperparaboliques, et permettant de mesurer les distances entre travers un tenseur métrique - la métrique d'information de Fisher : $x^2 + y^2 - x^2 = -1$ $\mathrm {pdf's,}$ $P$ $Q,$ $\mathrm{pdf's}$ $g_{\mu\nu}\;(\Theta)\;\mathbf e^\mu\otimes \mathbf e^\nu$

D (P (x; θ_{1}), Q (x; θ_{2})) = min_{θ (t) | θ (0) = θ_{1}, θ (1) = θ_{2}} \int_{0}^{1} \sqrt{{(\frac{d θ}{d t})}^{⊤} I (θ) \frac{d θ}{d t} d t}

$D\,\left ( P(x;\theta_1)\,,\,Q(x;\theta_2) \right)=\min_{\theta(t)\,|\,\theta(0)=\theta_1\;,\;\theta(1)=\theta_2}\;\int_0^1 \; \sqrt{\left(\frac{\mathrm d\theta}{\mathrm dt} \right)^\top\;I(\theta)\frac{\mathrm d \theta}{\mathrm dt}dt}$

avec

I (θ) = \frac{1}{σ^{2}} [\begin{matrix} 1 & 0 \\ 0 & 2 \end{matrix}]

$I(\theta) = \frac{1}{\sigma^2}\begin{bmatrix}1&0\\0&2 \end{bmatrix}$

La divergence Kullback-Leibler est étroitement liée, bien qu'elle manque de géométrie et de métrique associée.

Et il est intéressant de noter que la matrice d'informations de Fisher peut être interprétée comme l' entropie de Hesse de Shannon :

g_{i j} (θ) = - E [\frac{\partial^{2} \log p (x; θ)}{\partial θ_{i} \partial θ_{j}}] = \frac{\partial^{2} H (p)}{\partial θ_{i} \partial θ_{j}}

$g_{ij}(\theta)=-E\left[ \frac{\partial^2\log p(x;\theta)}{\partial \theta_i \partial\theta_j} \right]=\frac{\partial^2 H(p)}{\partial \theta_i \partial \theta_j}$

avec

H (p) = - \int p (x; θ) \log p (x; θ) d x .

$H(p) = -\int p(x;\theta)\,\log p(x;\theta) \mathrm dx.$

Cet exemple est similaire dans son concept à la carte stéréographique de la Terre plus courante .

L'incorporation multidimensionnelle ML ou l'apprentissage multiple n'est pas abordé ici.

Antoni Parellada
la source

Il existe plusieurs façons de lier les probabilités à la géométrie. Je suis sûr que vous avez entendu parler de distributions elliptiques (par exemple gaussiennes). Le terme lui-même implique un lien géométrique et il est évident lorsque vous dessinez sa matrice de covariance. Avec les collecteurs, il suffit de placer toutes les valeurs de paramètres possibles dans le système de coordonnées. Par exemple, un collecteur gaussien aurait deux dimensions: . Vous pouvez avoir n'importe quelle valeur de mais uniquement des variances positives . Par conséquent, la variété gaussienne serait la moitié de tout l' espace . Pas si intéressant $\mu,\sigma^2$ $\mu\in R$ $\sigma^2>0$ $R^2$

Aksakal
la source

Je suppose que je pensais qu'un "collecteur" est censé être de dimension inférieure à son espace d'intégration? Un demi - espace ne compterait donc pas?

GeoMatt22

Avec la gaussienne, ce n'est même pas une variété, non. Vous avez besoin de contraintes, donc cela devient une sorte d'avion ou de ligne

Aksakal

J'essaie de comprendre les implications de votre réponse ... Vous voulez dire " un lien géométrique"? De plus, je viens de trouver ce post sur MathOverflow .

Antoni Parellada

Il devient plus intéressant avec une métrique appropriée ... comme celle de Fisher-Rao, puis devient la demi-place hyperbolique Poincare en.wikipedia.org/wiki/Poincar%C3%A9_half-plane_model

mic

Pour tous: (1) les variétés qui décrivent les familles paramétriques sont des variétés intrinsèques : elles n'ont pas besoin d'être intégrées dans un espace vectoriel. (2) Ce sont plus que de simples variétés différenciables: les informations de Fisher les dotent d'une métrique riemannienne - une distance locale - qui leur permet d'être étudiées géométriquement. Cela fait de la "moitié de l' espace " en une surface courbe.

R^{2}

$\mathbb{R}^2$

whuber