La formule de la dimension Vapnik – Chervonenkis (VC) pour les réseaux de neurones va de à , avec dans le pire des cas, où est le nombre d'arêtes et est le nombre de nœuds. Le nombre d'échantillons d'apprentissage nécessaires pour avoir une garantie forte de généralisation est linéaire avec la dimension VC.
Cela signifie que pour un réseau comportant des milliards d'arêtes, comme dans le cas de modèles d'apprentissage en profondeur réussis, l'ensemble de données de formation a besoin de milliards d'échantillons d'apprentissage dans le meilleur des cas, voire de quadrillions dans le pire des cas. Les plus grands ensembles d’entraînement ont actuellement une centaine de milliards d’échantillons. Comme il n’ya pas assez de données de formation, il est peu probable que les modèles d’apprentissage en profondeur se généralisent. Au lieu de cela, ils sur-utilisent les données de formation. Cela signifie que les modèles ne fonctionneront pas bien avec des données différentes des données d'apprentissage, ce qui est une propriété indésirable pour l'apprentissage automatique.
Étant donné l’incapacité de l’apprentissage en profondeur à généraliser, selon l’analyse dimensionnelle par VC, pourquoi les résultats de l’apprentissage en profondeur sont-ils si prometteurs? Le simple fait d’avoir une précision élevée sur certains jeux de données ne signifie pas grand chose en soi. Y a-t-il quelque chose de spécial dans les architectures d'apprentissage en profondeur qui réduit considérablement la dimension VC?
Si vous pensez que l'analyse de la dimension VC n'est pas pertinente, veuillez fournir des preuves / explications selon lesquelles l'apprentissage en profondeur est en train de généraliser et de ne pas sur-adapter. Par exemple, a-t-il un bon rappel ET une précision, ou juste un bon rappel? Le rappel à 100% est trivial à atteindre, de même que la précision à 100%. Obtenir les deux près de 100% est très difficile.
À titre d’exemple contraire, il est prouvé que l’apprentissage en profondeur est un processus excessif. Un modèle overfit est facile à tromper, car il intègre un bruit déterministe / stochastique. Voir l'image suivante pour un exemple de surajustement.
Consultez également les réponses les moins bien notées à cette question pour comprendre les problèmes posés par un modèle de surajustement malgré une bonne précision des données de test.
Certains ont répondu que la régularisation résout le problème d’une grande dimension de capital-risque. Voir cette question pour une discussion plus approfondie.
la source
Réponses:
"Si la carte et le terrain ne sont pas d’accord, faites confiance au terrain."
On ne comprend pas vraiment pourquoi l'apprentissage en profondeur fonctionne aussi bien, mais d'anciens concepts tirés de la théorie de l'apprentissage, tels que les dimensions de la CV, ne semblent pas très utiles.
La question est vivement débattue, voir par exemple:
En ce qui concerne la question des exemples contradictoires , le problème a été découvert dans:
Il est développé dans:
Il y a beaucoup de travail de suivi.
la source
Non, ce n'est pas ce que dit l'analyse dimensionnelle par VC. L'analyse dimensionnelle par VC donne certaines conditions suffisantes dans lesquelles la généralisation est garantie. Mais l'inverse n'est pas nécessairement le cas. Même si vous ne remplissez pas ces conditions, la méthode ML peut encore être généralisée.
Autrement dit: l’apprentissage en profondeur fonctionne mieux que ne l’attend l’analyse dimensionnelle par VC (mieux que l’analyse par VC «prédit»). C’est là un défaut de l’analyse dimensionnelle par VC, et non un apprentissage en profondeur. Cela ne signifie pas que l'apprentissage en profondeur est imparfait. Cela signifie plutôt que nous ne savons pas pourquoi l'apprentissage en profondeur fonctionne - et l'analyse par CV n'est pas en mesure de fournir des informations utiles.
Une dimension de VC élevée ne signifie pas que l’apprentissage en profondeur peut être dupé. La grande dimension VC ne garantit en rien que l’on puisse le duper dans des situations pratiques. La dimension VC fournit un lien unidirectionnel dans le pire des cas: si vous remplissez ces conditions, de bonnes choses se produisent, mais si vous ne remplissez pas ces conditions, nous ne savons pas ce qui se passera (peut-être que de bonnes choses se produiront quand même, si la nature se comporte mieux que dans le pire des cas; l’analyse par capital-risque ne promet pas que de bonnes choses ne se produiront pas / ne se produiront pas ).
Il se peut que la dimension VC de l’espace modèle soit grande (elle inclut des motifs aussi complexes que possible), mais la nature est expliquée par des motifs simples, et l’algorithme ML apprend le motif simple présent dans la nature (par exemple, à cause de la régularisation) - - dans ce cas, la dimension VC serait élevée mais le modèle généraliserait (pour le modèle particulier présent dans la nature).
Cela dit ... il existe de plus en plus de preuves que l'apprentissage en profondeur peut être trompé par des exemples contradictoires. Mais faites attention à votre chaîne de raisonnement. Les conclusions que vous tirez ne découlent pas des prémisses avec lesquelles vous avez commencé.
la source
Les gens de l’industrie n’ont aucune considération pour la dimension VC, les hooligans ...
Sur une note plus sérieuse, bien que le modèle PAC soit une manière élégante de penser à l'apprentissage (à mon avis du moins), et suffisamment complexe pour donner lieu à des concepts et à des questions intéressantes (comme la dimension VC et son lien avec la complexité de l'échantillon) , cela a très peu à voir avec des situations réelles.
N'oubliez pas que dans le modèle PAC, vous devez gérer des distributions arbitraires, cela signifie que votre algorithme doit gérer des distributions contradictoires. Lorsque vous essayez d'apprendre certains phénomènes dans le monde réel, personne ne vous donne de "données contradictoires" pour gâcher vos résultats. Exiger donc qu'une classe de concepts puisse être appris par PAC peut être beaucoup trop fort. Parfois, vous pouvez limiter l'erreur de généralisation indépendamment de la dimension VC, pour une classe spécifique de distributions. C'est le cas des limites de marge, qui sont formulées indépendamment de la dimension VC. Ils peuvent promettre une faible erreur de généralisation si vous pouvez garantir une marge empirique élevée (ce qui, bien sûr, ne peut pas se produire pour toutes les distributions, par exemple prendre deux points proches sur le plan avec des étiquettes opposées et concentrer la distribution sur eux).
Donc, en mettant de côté le modèle PAC et la dimension VC, je pense que le battage médiatique vient du fait qu’ils semblent fonctionner et qu’ils réussissent dans des tâches qui n’étaient pas possibles auparavant (l’une des dernières réalisations qui me vient à l’esprit est AlphaGo). Je connais très peu de choses sur les réseaux neuronaux. J'espère donc qu'une personne plus expérimentée interviendra, mais à ma connaissance, il n'y a pas encore de bonne garantie (certainement pas comme dans le modèle PAC). Peut-être que, sous de bonnes hypothèses, on pourrait justifier officiellement le succès des réseaux de neurones (je suppose qu'il existe des travaux sur le traitement formel des réseaux de neurones et "l'apprentissage en profondeur"; j'espère donc que les personnes mieux informées sur le sujet pourront relier certains documents) .
la source
Je ne sais pas d'où vous prenez ça. De manière empirique, la généralisation est considérée comme le score (par exemple, la précision) de données invisibles.
La réponse à l'utilisation des CNN est simple: les CNN fonctionnent beaucoup mieux que toute autre chose . Voir ImageNet 2012 pour un exemple:
Créez un classificateur qui est meilleur et les gens vont passer à cela.
Ce n'est pas le cas. Vous pouvez créer un classificateur extrêmement simple sur un jeu de données simple. Il ne sera pas possible de le tromper (peu importe ce que signifie "facile"), mais ce n’est pas intéressant non plus.
la source
La réponse en un mot est "régularisation". La formule de dimension VC naïve ne s'applique pas vraiment ici car la régularisation exige que les pondérations ne soient pas générales. Seule une infime proportion (infinitésimale?) De combinaisons de poids a une perte acceptable après régularisation. En conséquence, la vraie dimension est beaucoup moins variée d’ordre de grandeur, donc une généralisation peut se produire avec les ensembles d’entraînement que nous avons. Les résultats réels confirment que la suralimentation ne se produit généralement pas.
la source
Nous abordons le document: Comprendre l’apprentissage en profondeur nécessite de repenser la généralisation. dans
Repenser la généralisation nécessite de revenir sur de vieilles idées: approches de la mécanique statistique et comportement complexe en apprentissage Charles H. Martin et Michael W. Mahoney
Voir: https://arxiv.org/pdf/1710.09553.pdf
Fondamentalement, nous affirmons que les limites de la CV sont trop floues car l'approche fondamentale et la manière dont la limite statistique adoptée est irréaliste.
Une meilleure approche réside dans la mécanique statistique, qui considère une classe de fonctions dépendantes des données, prend la limite thermodynamique (pas seulement la limite des grands nombres)
De plus, nous montrons également comment les discontinuités naturelles dans les besoins profonds entraînent des transitions de phase dans la courbe d'apprentissage, ce qui, selon nous, est observé dans le document de Google (ci-dessus).
En ce qui concerne les limites, voir la section 4.2 de notre document
"Clairement, si nous fixons la taille de l'échantillon m et laissons [la taille de la classe de fonctions] N → ∞, [ou inversement, fixons N, prenons m → ∞], nous ne devrions pas nous attendre à un résultat non trivial, puisque [ N] devient plus grand mais la taille de l'échantillon est fixe. Ainsi, en mécanique statistique, on considère généralement le cas où m, N → ∞ tel que α = m / N soit une constante fixe ".
C’est-à-dire qu’il est très rare que nous ajoutions simplement plus de données (m) à un réseau profond. Nous augmentons toujours la taille du réseau (N) également, car nous savons que nous pouvons capturer des caractéristiques / informations plus détaillées à partir des données. Au lieu de cela, nous appliquons dans la pratique ce que nous défendons dans le document - prenons la limite de la grande taille, avec le rapport m / N fixé (au lieu de dire fixer m et laisser N augmenter).
Ces résultats sont bien connus dans la Mécanique statistique de l’apprentissage. L'analyse est plus compliquée, mais les résultats conduisent à une structure beaucoup plus riche qui explique de nombreux phénomènes d'apprentissage en profondeur.
De plus, et en particulier, il est connu que de nombreuses limites issues de statistiques deviennent soit triviales, soit ne s'appliquent plus à des distributions de probabilités non lisses, ou lorsque les variables prennent des valeurs discrètes. Avec les réseaux de neurones, un comportement non trivial résulte de discontinuités (dans les fonctions d'activation), conduisant à des transitions de phase (apparaissant à la limite thermodynamique).
Le document que nous avons rédigé tente d'expliquer les idées essentielles à un auditoire en informatique.
Vapnik lui-même s'est rendu compte que sa théorie n'était pas vraiment applicable aux réseaux de neurones ... depuis 1994
"L'extension de [la dimension VC] aux réseaux multicouches se heurte à [beaucoup] de difficultés .. les algorithmes d'apprentissage existants ne peuvent pas être considérés comme minimisant le risque empirique sur l'ensemble des fonctions implémentables par le réseau ... [car] c'est probable ... la recherche se limitera à un sous-ensemble de [ces] fonctions ... La capacité de cet ensemble peut être très inférieure à celle de l'ensemble ... [et] peut changer avec le nombre d'observations. Cela peut nécessiter une théorie qui considère la notion de capacité non constante avec un sous-ensemble de fonctions "actives" "
Vapnik, Levin et LeCun 1994
http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf
Bien que ce ne soit pas facile à traiter avec la théorie de la CV, ce n’est pas un problème pour stat mech..et ce qu’elles décrivent ressemble beaucoup à la théorie du paysage énergétique du repliement des protéines. (qui fera l'objet d'un prochain article)
la source
Personne ne semble avoir souligné dans les réponses ci-dessus que la formule de dimension VC citée ne concerne qu'un réseau de neurones à une couche. Mon hypothèse est que la dimension VC augmente de manière exponentielle à mesure que le nombre de couches L augmente. Mon raisonnement est basé sur des réseaux de neurones profonds où la fonction d’activation est remplacée par des réseaux polynomiaux. Ensuite, le degré de polynômes composés augmente de façon exponentielle avec l’augmentation du nombre de couches.
la source