Sur ce poste , vous pouvez lire la déclaration:
Les modèles sont généralement représentés par des points sur une variété de dimensions finies.
Sur la géométrie différentielle et les statistiques par Michael K Murray et John W Rice, ces concepts sont expliqués en prose lisible, même en ignorant les expressions mathématiques. Malheureusement, il y a très peu d'illustrations. Il en va de même pour ce post sur MathOverflow.
Je veux demander de l'aide avec une représentation visuelle pour servir de carte ou de motivation vers une compréhension plus formelle du sujet.
Quels sont les points sur le collecteur? Cette citation de cette découverte en ligne indique apparemment qu'il peut s'agir des points de données ou des paramètres de distribution:
Les statistiques sur les variétés et la géométrie de l'information sont deux façons différentes par lesquelles la géométrie différentielle rencontre les statistiques. Alors que dans les statistiques sur les variétés, ce sont les données qui se trouvent sur une variété, dans la géométrie de l'information, les données sont dans , mais la famille paramétrée des fonctions de densité de probabilité d'intérêt est traitée comme une variété. Ces variétés sont connues sous le nom de variétés statistiques.
J'ai dessiné ce schéma inspiré de cette explication de l'espace tangent ici :
[ Modifier pour refléter le commentaire ci-dessous sur : ] Sur une variété, , l'espace tangent est l'ensemble de toutes les dérivées possibles ("vitesses") en un point associé à toutes les courbes possibles sur le collecteur passant parCela peut être vu comme un ensemble de cartes de chaque courbe traversant c'est dire défini comme la composition , avec désignant une courbe (fonction de la ligne réelle à la surface de la variétép∈ M (ψ: R → M )p. p, C ∞ (t)→ R , ( f ∘ ψ ) ′ (t)ψ M p,f,fp) passant par le point et représenté en rouge sur le schéma ci-dessus; et représentant une fonction de test. Les « iso- » lignes de contour blanc carte sur le même point sur la ligne réelle, et entourent le point .
L'équivalence (ou l'une des équivalences appliquées aux statistiques) est discutée ici et se rapporterait à la citation suivante :
Si l'espace des paramètres d'une famille exponentielle contient un ensemble ouvert dimensionnel , il est alors appelé rang complet.
Une famille exponentielle qui n'est pas de rang complet est généralement appelée une famille exponentielle courbe, car généralement l'espace des paramètres est une courbe en de dimension inférieure à s.
Cela semble rendre l'interprétation de l'intrigue comme suit: les paramètres de distribution (dans ce cas des familles de distributions exponentielles) se trouvent sur la variété. Les points de données dans correspondraient à une ligne sur le collecteur via la fonction dans le cas d'un problème d'optimisation non linéaire avec un manque de rang. Cela correspondrait au calcul de la vitesse en physique: recherche de la dérivée de la fonction long du gradient des lignes "iso-f" (dérivée directionnelle en orange):La fonction jouerait le rôle d'optimiser la sélection d'un paramètre de distribution comme courbe ψ : R → M f ( f ∘ ψ ) ′ ( t ) . f : M → R ψ fse déplace le long des courbes de niveau de sur le collecteur.
CONTEXTE AJOUTÉ:
Il convient de noter que ces concepts ne sont pas immédiatement liés à la réduction de la dimensionnalité non linéaire du ML. Ils ressemblent davantage à la géométrie de l'information . Voici une citation:
Surtout, les statistiques sur les variétés sont très différentes de l'apprentissage des variétés. Ce dernier est une branche de l'apprentissage automatique dont le but est d'apprendre une variété latente à partir de données évaluées par . Typiquement, la dimension du collecteur latent recherché est inférieure à . Le collecteur latent peut être linéaire ou non linéaire, selon la méthode particulière utilisée. n
Les informations suivantes de Statistics on Manifolds with Applications to Modeling Shape Deformations by Oren Freifeld :
Alors que est généralement non linéaire, on peut associer un espace de tangente, notée , à chaque point . est un espace vectoriel dont la dimension est la même que celle de . L'origine de est à la . Si est intégré dans un espace euclidien, nous pouvons penser à comme un sous-espace affine tel que: 1) il touche à ; 2) au moins localement, repose complètement sur l'un de ses côtés. Les éléments de TpM sont appelés vecteurs tangents.T p M p ∈ M T p M M T p M p M T p M M p M
[...] Sur les variétés, les modèles statistiques sont souvent exprimés dans des espaces tangents.
[...]
[Nous considérons deux] ensembles de données constitués de points dans :
;
Soit et représentent deux, peut - être inconnu, points . On suppose que les deux ensembles de données satisfont aux règles statistiques suivantes:
[...]
En d'autres termes, lorsque est exprimé (sous forme de vecteurs tangents) dans l'espace tangent (à ) à , il peut être vu comme un ensemble d'échantillons iid à partir d'un gaussien à moyenne nulle avec covariance . De même, lorsque est exprimé dans l'espace tangent à il peut être vu comme un ensemble d'échantillons iid d'un gaussien à moyenne nulle avec covariance . Cela généralise le cas euclidien.
Sur la même référence, je trouve en ligne l'exemple le plus proche (et pratiquement le seul) de ce concept graphique que je demande:
Cela indiquerait-il que des données se trouvent à la surface du collecteur exprimées en vecteurs tangents et que les paramètres seraient mappés sur un plan cartésien?
la source
Réponses:
Une famille de distributions de probabilité peut être analysée comme les points sur une variété avec des coordonnées intrinsèques correspondant aux paramètres de la distribution. L'idée est d'éviter une représentation avec une métrique incorrecte: Gaussiens univariés peuvent être tracés sous forme de points dans la variété euclidienne comme sur le côté droit du tracé ci-dessous avec la moyenne dans l' axe des et la SD dans l' axe des (moitié positive dans le cas du tracé de la variance):(Θ) N(μ,σ2), R2 x y
Cependant, la matrice d'identité (distance euclidienne) ne parviendra pas à mesurer le degré de (dis-) similitude entre les individuels : sur les courbes normales à gauche du graphique ci-dessus, étant donné un intervalle dans le domaine, la zone sans chevauchement (en bleu foncé) est plus grande pour les courbes gaussiennes avec une variance plus faible, même si la moyenne est maintenue fixe. En fait, la seule métrique riemannienne qui «a du sens» pour les variétés statistiques est la métrique d'information de Fisher .pdf
Dans Fisher information distance: une lecture géométrique , Costa SI, Santos SA et Strapasson JE profitent de la similitude entre la matrice d'informations Fisher des distributions gaussiennes et la métrique du modèle de disque de Beltrami-Pointcaré pour dériver une formule fermée.
Le cône "nord" de l'hyperboloïde devient une variété non euclidienne, dans laquelle chaque point correspond à un écart moyen et standard (espace des paramètres), et la distance la plus courte entre par exemple et dans le diagramme ci-dessous, est une courbe géodésique, projetée (carte cartographique) sur le plan équatorial sous forme de lignes droites hyperparaboliques, et permettant de mesurer les distances entre travers un tenseur métrique - la métrique d'information de Fisher :x2+y2−x2=−1 pdf′s, P Q, pdf′s gμν(Θ)eμ⊗eν
avec
La divergence Kullback-Leibler est étroitement liée, bien qu'elle manque de géométrie et de métrique associée.
Et il est intéressant de noter que la matrice d'informations de Fisher peut être interprétée comme l' entropie de Hesse de Shannon :
avec
Cet exemple est similaire dans son concept à la carte stéréographique de la Terre plus courante .
L'incorporation multidimensionnelle ML ou l'apprentissage multiple n'est pas abordé ici.
la source
Il existe plusieurs façons de lier les probabilités à la géométrie. Je suis sûr que vous avez entendu parler de distributions elliptiques (par exemple gaussiennes). Le terme lui-même implique un lien géométrique et il est évident lorsque vous dessinez sa matrice de covariance. Avec les collecteurs, il suffit de placer toutes les valeurs de paramètres possibles dans le système de coordonnées. Par exemple, un collecteur gaussien aurait deux dimensions: . Vous pouvez avoir n'importe quelle valeur de mais uniquement des variances positives . Par conséquent, la variété gaussienne serait la moitié de tout l' espace . Pas si intéressantμ,σ2 μ∈R σ2>0 R2
la source