Comment prouver que l'hypothèse multiple est correcte?

9

Dans l'apprentissage automatique, il est souvent supposé qu'un ensemble de données repose sur un collecteur lisse de faible dimension (l'hypothèse du collecteur), mais existe-t-il un moyen de prouver que, en supposant que certaines conditions sont remplies, l'ensemble de données est en effet (approximativement) généré à partir d'un collecteur lisse de faible dimension?

Par exemple, étant donné une séquence de données où (disons la séquence d'images de visage avec des angles différents) et une séquence d'étiquettes correspondante où (disons les angles de la séquence de faces). Supposons que lorsque et sont très proches, leurs étiquettes et sont également très proches, nous pouvons imaginer qu'il est probable que{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}se trouvent sur un collecteur de faible dimension. Est-ce vrai? Si oui, comment pouvons-nous le prouver? Ou quelles conditions la séquence doit-elle remplir pour que la supposition multiple puisse être vérifiée?

penser
la source

Réponses:

10

Il apparaît rapidement, en examinant de nombreux récits de la «supposition multiple», que de nombreux auteurs sont particulièrement bâclés quant à sa signification. Les plus prudents le définissent avec une mise en garde subtile mais extrêmement importante : que les données se trouvent sur ou à proximité d' un collecteur de faible dimension.

Même ceux qui n'incluent pas la clause "ou proche de" adoptent clairement l'hypothèse du collecteur comme une fiction approximative, pratique pour effectuer une analyse mathématique, car leurs applications doivent envisager des écarts entre les données et le collecteur estimé. En effet, de nombreux auteurs introduisent plus tard un mécanisme explicite pour les écarts, comme envisager la régression de contre où est contraint de se trouver sur une variété mais le peut inclure déviations aléatoires. Cela revient à supposer que les tuples sont prochesyxxMkRd y(xi,yi)à, mais pas nécessairement sur, une variété dimensionnelle immergée de la formek

(x,f(x))Mk×RRd×RRd+1

pour une fonction lisse (de régression) . Puisque nous pouvons voir tous les points perturbés , qui sont simplement proches du graphique de (une variété dimensionnelle), comme couchés sur la variété , cela explique pourquoi une telle négligence à distinguer "on" de "proche de" peut être sans importance en théorie.f:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

La différence entre "activé" et "proche de" est extrêmement importante pour les applications. "Près de" permet que les données puissent s'écarter du collecteur. En tant que tel, si vous choisissez d'estimer ce collecteur, la quantité typique d'écart entre les données et le collecteur peut être quantifiée. Un collecteur monté sera meilleur qu'un autre lorsque la quantité typique de déviation est moindre, ceteris paribus.

Figure

La figure montre deux versions de l'hypothèse du collecteur pour les données (gros points bleus): le collecteur noir est relativement simple (ne nécessitant que quatre paramètres pour décrire) mais ne se rapproche que des données, tandis que le collecteur en pointillé rouge correspond aux données parfaitement mais est compliqué (17 paramètres sont nécessaires).

Comme dans tous ces problèmes, il y a un compromis entre la complexité de la description de la variété et la qualité de l'ajustement (le problème de sur-ajustement). Il est toujours possible de trouver un collecteur unidimensionnel qui s'adapte parfaitement à toute quantité finie de données dans (comme avec le collecteur en pointillés rouges sur la figure, exécutez simplement une courbe lisse à travers tous les points , dans n'importe quel ordre: presque sûrement, il ne se coupera pas, mais s'il le fait, perturbera la courbe au voisinage d'une telle intersection pour l'éliminer). À l'autre extrême, si seule une classe limitée de variétés est autorisée (comme les hyperplans euclidiens droits uniquement), un bon ajustement peut être impossible, quelles que soient les dimensions, et l'écart typique entre les données et l'ajustement peut être important.Rd

Cela conduit à une manière simple et pratique d'évaluer l'hypothèse multiple: si le modèle / prédicteur / classificateur développé à partir de l'hypothèse multiple fonctionne bien, alors l'hypothèse était justifiée. Ainsi, les conditions appropriées recherchées dans la question seront qu'une certaine mesure appropriée de la qualité de l'ajustement soit suffisamment petite. (Quelle mesure? Cela dépend du problème et revient à sélectionner une fonction de perte.)

Il est possible que des variétés de dimensions différentes (avec différents types de contraintes sur leur courbure) puissent également s'adapter aux données - et prédire les données bloquées -. Rien ne peut être «prouvé» sur la variété «sous-jacente» en général, en particulier lorsque vous travaillez avec de grands ensembles de données humains désordonnés. Tout ce que nous pouvons généralement espérer, c'est que le collecteur monté soit un bon modèle.

Si vous ne trouvez pas un bon modèle / prédicteur / classificateur, alors soit l'hypothèse du collecteur n'est pas valide, vous supposez des collecteurs de trop petite dimension, soit vous n'avez pas regardé assez fort ou assez bien.

whuber
la source
1
+1 Très sympa. Permettez-moi d'ajouter (sans impliquer que vous partagiez mon point de vue) que cela montre une fois de plus pourquoi la façon de penser fondée sur des principes mais sceptique et souvent hésitante qui a été cultivée dans les statistiques au cours de nombreuses années est très importante pour le souvent vague, rapide, brillant-nouveau- monde jouet de l'apprentissage automatique et de la science des données.
Momo
5

Tout ensemble fini de points peut tenir sur n'importe quelle variété (référence de théorème nécessaire, je ne peux pas me souvenir de ce qu'est le théorème, je me souviens juste de ce fait de uni).

Si l'on ne veut pas que tous les points soient identifiés, alors la dimension la plus basse possible est 1.

Prenons un exemple simple, étant donné N points 2d, il existe un polynôme d'ordre N - 1 où tous les points N se trouvent sur ce polynôme. Par conséquent, nous avons une variété 1d pour tout ensemble de données 2d. Je pense que la logique des dimensions arbitraires est similaire.

Donc, ce n'est pas le problème, les vraies hypothèses sont sur la structure / simplicité de la variété, en particulier lors du traitement des variétés riemanniennes connectées comme des espaces métriques. J'ai lu des articles sur ce pocus hocus varié, et j'ai trouvé si vous lisez attentivement quelques hypothèses assez énormes émergent!

Les hypothèses émises sont celles où la définition induite de "proximité" est supposée "préserver les informations dans notre ensemble de données", mais comme cela n'est pas formellement défini en termes de théorie de l'information, la définition résultante est assez ad hoc et une hypothèse assez énorme en effet. En particulier, le problème semble être que la "proximité" est préservée, c'est-à-dire que deux points proches restent proches, mais que "l'éloignement" ne l'est pas, et donc deux points "éloignés" ne restent pas loin.

En conclusion, je me méfierais beaucoup d'une telle ruse dans l'apprentissage automatique à moins que son ensemble de données connu ne soit en effet naturellement euclidien, par exemple la reconnaissance visuelle des formes. Je ne considérerais pas ces approches comme appropriées à des problèmes plus généraux.

samthebest
la source
Merci! Votre réponse m'a aidé à mieux comprendre le problème. Pourriez-vous recommander certains des documents concernant l'hypothèse multiple que vous avez mentionnée ici?
thinkbear
Désolé,
je