Dans les techniques de réduction de dimensionnalité telles que l'analyse en composantes principales, LDA, etc., le terme collecteur est souvent utilisé. Qu'est-ce qu'une variété en termes non techniques? Si un point appartient à une sphère dont je veux réduire la dimension, et s'il y a un bruit et et sont pas corrélés, alors les points réels seraient très éloignés les uns des autres à cause du bruit. Par conséquent, un filtrage du bruit serait nécessaire. Ainsi, la réduction de dimension serait effectuée sur . , Fait ici donc et appartiennent à différents collecteurs?y x z = x + y x y
Je travaille sur des données de nuages de points qui sont souvent utilisées en vision robotique; les nuages de points sont bruyants en raison du bruit lors de l'acquisition et je dois réduire le bruit avant la réduction de dimension. Sinon, j'obtiendrai une réduction de dimension incorrecte. Alors, quelle est la variété ici et le bruit fait-il partie de la même variété à laquelle appartient ?
la source
Réponses:
En termes non techniques, un collecteur est une structure géométrique continue ayant une dimension finie: une ligne, une courbe, un plan, une surface, une sphère, une boule, un cylindre, un tore, un "blob" ... quelque chose comme ça :
C'est un terme générique utilisé par les mathématiciens pour dire "une courbe" (dimension 1) ou "surface" (dimension 2), ou un objet 3D (dimension 3) ... pour toute dimension finie possible . Un manifold unidimensionnel est simplement une courbe (ligne, cercle ...). Un collecteur bidimensionnel est simplement une surface (plan, sphère, tore, cylindre ...). Un manifold tridimensionnel est un "objet complet" (boule, cube plein, l'espace 3D qui nous entoure ...).n
Une variété est souvent décrite par une équation: l'ensemble des points tels que x 2 + y 2 = 1 est une variété unidimensionnelle (un cercle).( x , y) x2+y2=1
Un collecteur a partout la même dimension. Par exemple, si vous ajoutez une ligne (dimension 1) à une sphère (dimension 2), la structure géométrique résultante n'est pas une variété.
Contrairement aux notions plus générales d'espace métrique ou d'espace topologique également destinées à décrire notre intuition naturelle d'un ensemble continu de points, une variété est censée être quelque chose de localement simple: comme un espace vectoriel de dimension finie: . Cela exclut les espaces abstraits (comme les espaces de dimension infinie) qui manquent souvent d'avoir une signification géométrique concrète.Rn
Contrairement à un espace vectoriel, les variétés peuvent avoir différentes formes. Certaines variétés peuvent être facilement visualisées (sphère, boule ...), certaines sont difficiles à visualiser, comme la bouteille de Klein ou le véritable plan projectif .
Dans les statistiques, l'apprentissage automatique ou les mathématiques appliquées en général, le mot "collecteur" est souvent utilisé pour dire "comme un sous-espace linéaire" mais peut-être courbe. Chaque fois que vous écrivez une équation linéaire comme: vous obtenez un sous-espace linéaire (affine) (ici un plan). Habituellement, lorsque l'équation est non linéaire comme x 2 + 2 y 2 + 3 z 2 = 7 , c'est une variété (ici une sphère étirée).3x+2y−4z=1 x2+2y2+3z2=7
Par exemple, "l' hypothèse du collecteur " de ML dit "les données de haute dimension sont des points dans un collecteur de basse dimension avec un bruit de dimension élevé ajouté". Vous pouvez imaginer les points d'un cercle 1D avec du bruit 2D ajouté. Bien que les points ne soient pas exactement sur le cercle, ils satisfont statistiquement à l'équation . Le cercle est la variété sous-jacente:x2+y2=1
la source
Une variété (topologique) est un espace qui est:M
(1) "localement" "équivalent" à pour certains n .Rn n
"Localement", l '"équivalence" peut être exprimée via fonctions de coordonnées, c i : M → R , qui forment ensemble une fonction de "préservation de la structure", c : M → R n , appelée un diagramme .n ci:M→R c:M→Rn
(2) peut être réalisé de manière "préservant la structure" en tant que sous-ensemble de pour certains N ≥ n . (1) (2)RN N≥n
A noter que pour rendre la "structure" précise ici, il faut comprendre les notions de base de la topologie ( def. ), Ce qui permet de faire des notions précises de comportement "local" , et donc "localement" ci-dessus. Quand je dis «équivalent», je veux dire une structure topologique équivalente ( homéomorphe ), et quand je dis «préservant la structure», je veux dire la même chose (crée une structure topologique équivalente).
Notez également que pour faire du calcul sur des variétés , il faut une condition supplémentaire qui ne découle pas des deux conditions ci-dessus, qui dit essentiellement quelque chose comme "les graphiques sont assez bien comportés pour nous permettre de faire du calcul". Ce sont les collecteurs les plus souvent utilisés en pratique. Contrairement aux variétés topologiques générales , en plus du calcul, elles permettent également des triangulations , ce qui est très important dans des applications comme la vôtre impliquant des données de nuages de points .
Notez que toutes les personnes n'utilisent pas la même définition pour une variété (topologique). Plusieurs auteurs la définiront comme ne satisfaisant qu'à la condition (1) ci-dessus, pas nécessairement aussi (2). Cependant, la définition qui satisfait à la fois (1) et (2) se comporte beaucoup mieux, donc plus utile pour les praticiens. On pourrait s'attendre intuitivement à ce que (1) implique (2), mais ce n'est pas le cas.
la source
Dans ce contexte, le terme collecteur est précis, mais il est inutilement élevé en malutine. Techniquement, une variété est tout espace (ensemble de points avec une topologie) suffisamment lisse et continu (d'une manière qui peut, avec un certain effort, être rendu mathématiquement bien défini).
Imaginez l'espace de toutes les valeurs possibles de vos facteurs d'origine. Après une technique de réduction dimensionnelle, tous les points de cet espace ne sont pas atteignables. Au lieu de cela, seuls les points sur un sous-espace intégré à l'intérieur de cet espace seront réalisables. Ce sous-espace intégré correspond à la définition mathématique d'une variété. Pour une technique de réduction dimensionnelle linéaire comme l'ACP, ce sous-espace n'est qu'un sous-espace linéaire (par exemple un hyperplan), qui est une variété relativement triviale. Mais pour la technique de réduction dimensionnelle non linéaire, ce sous-espace pourrait être plus compliqué (par exemple une hyper-surface courbe). Aux fins de l'analyse des données, il est beaucoup plus important de comprendre qu'il s'agit de sous-espaces que toute inférence que vous tireriez en sachant qu'ils répondent à la définition de la variété.
la source