Pourquoi l'apprentissage en profondeur est-il mis en avant malgré la mauvaise dimension du CV?

87

La formule de la dimension Vapnik – Chervonenkis (VC) pour les réseaux de neurones va de O(E) à O(E2) , avec O(E2V2) dans le pire des cas, où E est le nombre d'arêtes et V est le nombre de nœuds. Le nombre d'échantillons d'apprentissage nécessaires pour avoir une garantie forte de généralisation est linéaire avec la dimension VC.

Cela signifie que pour un réseau comportant des milliards d'arêtes, comme dans le cas de modèles d'apprentissage en profondeur réussis, l'ensemble de données de formation a besoin de milliards d'échantillons d'apprentissage dans le meilleur des cas, voire de quadrillions dans le pire des cas. Les plus grands ensembles d’entraînement ont actuellement une centaine de milliards d’échantillons. Comme il n’ya pas assez de données de formation, il est peu probable que les modèles d’apprentissage en profondeur se généralisent. Au lieu de cela, ils sur-utilisent les données de formation. Cela signifie que les modèles ne fonctionneront pas bien avec des données différentes des données d'apprentissage, ce qui est une propriété indésirable pour l'apprentissage automatique.

Étant donné l’incapacité de l’apprentissage en profondeur à généraliser, selon l’analyse dimensionnelle par VC, pourquoi les résultats de l’apprentissage en profondeur sont-ils si prometteurs? Le simple fait d’avoir une précision élevée sur certains jeux de données ne signifie pas grand chose en soi. Y a-t-il quelque chose de spécial dans les architectures d'apprentissage en profondeur qui réduit considérablement la dimension VC?

Si vous pensez que l'analyse de la dimension VC n'est pas pertinente, veuillez fournir des preuves / explications selon lesquelles l'apprentissage en profondeur est en train de généraliser et de ne pas sur-adapter. Par exemple, a-t-il un bon rappel ET une précision, ou juste un bon rappel? Le rappel à 100% est trivial à atteindre, de même que la précision à 100%. Obtenir les deux près de 100% est très difficile.

À titre d’exemple contraire, il est prouvé que l’apprentissage en profondeur est un processus excessif. Un modèle overfit est facile à tromper, car il intègre un bruit déterministe / stochastique. Voir l'image suivante pour un exemple de surajustement.

Exemple de sous-ajustement, ajustement et overfitting.

Consultez également les réponses les moins bien notées à cette question pour comprendre les problèmes posés par un modèle de surajustement malgré une bonne précision des données de test.

Certains ont répondu que la régularisation résout le problème d’une grande dimension de capital-risque. Voir cette question pour une discussion plus approfondie.

les jeunes
la source
Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
DW
7
Je ne pense pas que les questions pourquoi quelque chose "excité" sont bonnes. La réponse est "parce que les gens". Les gens s’intéressent aux choses pour diverses raisons, dont le marketing.
luk32
L'apprentissage en profondeur fonctionne dans la pratique. C'est peut-être un peu trop. Cela pourrait être complètement injustifié. Ce pourrait être apprendre les secrets de l'univers d'une divinité eldritch. Mais le battage publicitaire vient de praticiens qui sont soudainement capables d'écrire 30 lignes sur du code et d'apprendre à une caméra à numériser des signatures et à les faire correspondre avec celles stockées pour valider des transactions bancaires. Ou taguer des inconnus sur des photographies. Etc. Peut-être avez-vous entendu la ligne "Ce n'est pas une insulte si c'est vrai"? Eh bien ce n'est pas du battage médiatique si cela fonctionne. Il y a beaucoup de problèmes sur lesquels il ne fonctionne pas et un battage publicitaire excessif. Mais cela fonctionne dans la vie réelle.
Stella Biderman le
La facilité d'utilisation de @StellaBiderman autour des techniques d'apprentissage automatique standard est bonne et tout. Mais l'intérêt semble plutôt être lié à la capacité d'apprentissage supposée des DNN, qui rivalise peut-être avec la capacité humaine, ce qui semble être exagéré compte tenu de l'analyse par CV du modèle. Une dimension VC aussi élevée implique que les modèles ne se généralisent pas et mémorisent les jeux de données, ce qui les rend très fragiles. Tous les exemples d'articles contradictoires semblent démontrer ce point.
Yers
@ gerrit Je ne suis pas sûr que l'édition ait été très utile. Je parie que beaucoup de gens savent ce qu'est la dimension VC que ce qu’elle représente.
David Richerby le

Réponses:

75

"Si la carte et le terrain ne sont pas d’accord, faites confiance au terrain."

On ne comprend pas vraiment pourquoi l'apprentissage en profondeur fonctionne aussi bien, mais d'anciens concepts tirés de la théorie de l'apprentissage, tels que les dimensions de la CV, ne semblent pas très utiles.

La question est vivement débattue, voir par exemple:

En ce qui concerne la question des exemples contradictoires , le problème a été découvert dans:

Il est développé dans:

Il y a beaucoup de travail de suivi.

Martin Berger
la source
Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
DW
Quand vous dites "Il y a beaucoup de travail de suivi", faites-vous référence au dernier document de 2014? Les deux premiers articles que vous mentionnez sont assez récents. Pourriez-vous mettre à jour avec les documents dont vous parlez?
VF1
2
Fort +1 pour "Si la carte et le terrain ne sont pas d’accord, faites confiance au terrain." Les modèles fonctionnent extrêmement bien dans la pratique, que les maths disent qu’ils le devraient ou non. D'un point de vue scientifique, cela se produit tout le temps et si quelque chose rend les problèmes plus intéressants. Personne n'a lu le travail de Razborov et Rudich sur Natural Proofs et se dit "bon, je suppose que P vs NP n'est pas une question intéressante après tout." Ils se sont rendus compte qu'il était peut-être possible d'utiliser la géométrie algébrique pour faire de la théorie de la complexité. Du point de vue de la science, les problèmes qui transcendent notre compréhension sont meilleurs et non pires.
Stella Biderman le
65

"Compte tenu de l'incapacité de Deep Learning à généraliser, d'après l'analyse dimensionnelle par VC [...]"

Non, ce n'est pas ce que dit l'analyse dimensionnelle par VC. L'analyse dimensionnelle par VC donne certaines conditions suffisantes dans lesquelles la généralisation est garantie. Mais l'inverse n'est pas nécessairement le cas. Même si vous ne remplissez pas ces conditions, la méthode ML peut encore être généralisée.

Autrement dit: l’apprentissage en profondeur fonctionne mieux que ne l’attend l’analyse dimensionnelle par VC (mieux que l’analyse par VC «prédit»). C’est là un défaut de l’analyse dimensionnelle par VC, et non un apprentissage en profondeur. Cela ne signifie pas que l'apprentissage en profondeur est imparfait. Cela signifie plutôt que nous ne savons pas pourquoi l'apprentissage en profondeur fonctionne - et l'analyse par CV n'est pas en mesure de fournir des informations utiles.

Une dimension de VC élevée ne signifie pas que l’apprentissage en profondeur peut être dupé. La grande dimension VC ne garantit en rien que l’on puisse le duper dans des situations pratiques. La dimension VC fournit un lien unidirectionnel dans le pire des cas: si vous remplissez ces conditions, de bonnes choses se produisent, mais si vous ne remplissez pas ces conditions, nous ne savons pas ce qui se passera (peut-être que de bonnes choses se produiront quand même, si la nature se comporte mieux que dans le pire des cas; l’analyse par capital-risque ne promet pas que de bonnes choses ne se produiront pas / ne se produiront pas ).

Il se peut que la dimension VC de l’espace modèle soit grande (elle inclut des motifs aussi complexes que possible), mais la nature est expliquée par des motifs simples, et l’algorithme ML apprend le motif simple présent dans la nature (par exemple, à cause de la régularisation) - - dans ce cas, la dimension VC serait élevée mais le modèle généraliserait (pour le modèle particulier présent dans la nature).

Cela dit ... il existe de plus en plus de preuves que l'apprentissage en profondeur peut être trompé par des exemples contradictoires. Mais faites attention à votre chaîne de raisonnement. Les conclusions que vous tirez ne découlent pas des prémisses avec lesquelles vous avez commencé.

DW
la source
6
Ω(dn)
5
-1 pour "Les dimensions élevées en VC ne garantissent rien du tout." Ce n'est pas vrai: une dimension VC élevée implique des limites inférieures de complexité d'échantillon pour l'apprentissage PAC. Une bonne réponse devrait porter sur les distributions les plus défavorables et les situations "réelles".
Sasho Nikolov
1
@SashoNikolov, bon point - merci! Édité.
DW
Cet article était en basse qualité. Compte tenu du contenu, de la longueur, des votes et de la qualité, c’est ridicule de le montrer ici, mais cela peut nécessiter une méta, parce que quelque chose ne va vraiment pas.
Mal
23

Les gens de l’industrie n’ont aucune considération pour la dimension VC, les hooligans ...

Sur une note plus sérieuse, bien que le modèle PAC soit une manière élégante de penser à l'apprentissage (à mon avis du moins), et suffisamment complexe pour donner lieu à des concepts et à des questions intéressantes (comme la dimension VC et son lien avec la complexité de l'échantillon) , cela a très peu à voir avec des situations réelles.

N'oubliez pas que dans le modèle PAC, vous devez gérer des distributions arbitraires, cela signifie que votre algorithme doit gérer des distributions contradictoires. Lorsque vous essayez d'apprendre certains phénomènes dans le monde réel, personne ne vous donne de "données contradictoires" pour gâcher vos résultats. Exiger donc qu'une classe de concepts puisse être appris par PAC peut être beaucoup trop fort. Parfois, vous pouvez limiter l'erreur de généralisation indépendamment de la dimension VC, pour une classe spécifique de distributions. C'est le cas des limites de marge, qui sont formulées indépendamment de la dimension VC. Ils peuvent promettre une faible erreur de généralisation si vous pouvez garantir une marge empirique élevée (ce qui, bien sûr, ne peut pas se produire pour toutes les distributions, par exemple prendre deux points proches sur le plan avec des étiquettes opposées et concentrer la distribution sur eux).

Donc, en mettant de côté le modèle PAC et la dimension VC, je pense que le battage médiatique vient du fait qu’ils semblent fonctionner et qu’ils réussissent dans des tâches qui n’étaient pas possibles auparavant (l’une des dernières réalisations qui me vient à l’esprit est AlphaGo). Je connais très peu de choses sur les réseaux neuronaux. J'espère donc qu'une personne plus expérimentée interviendra, mais à ma connaissance, il n'y a pas encore de bonne garantie (certainement pas comme dans le modèle PAC). Peut-être que, sous de bonnes hypothèses, on pourrait justifier officiellement le succès des réseaux de neurones (je suppose qu'il existe des travaux sur le traitement formel des réseaux de neurones et "l'apprentissage en profondeur"; j'espère donc que les personnes mieux informées sur le sujet pourront relier certains documents) .

Ariel
la source
Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
DW
15

Étant donné l’incapacité du Deep Learning à généraliser,

Je ne sais pas d'où vous prenez ça. De manière empirique, la généralisation est considérée comme le score (par exemple, la précision) de données invisibles.

La réponse à l'utilisation des CNN est simple: les CNN fonctionnent beaucoup mieux que toute autre chose . Voir ImageNet 2012 pour un exemple:

  • CNN: 15,315% (c'était un exemple précoce. Les CNN sont bien meilleurs maintenant. À environ 4% des 5 erreurs les plus importantes)
  • Meilleur non-CNN: 26,172% d'erreur Top-5 ( source - à ma connaissance, les techniques qui n'utilisent pas les CNN ne sont pas inférieures à 25% d'erreur top-5)

Créez un classificateur qui est meilleur et les gens vont passer à cela.

MISE À JOUR: J'accorderai une réponse à toute personne fournissant des preuves publiées montrant que l'apprentissage automatique en général est facilement dupé, comme cette preuve pour Deep Learning.

Ce n'est pas le cas. Vous pouvez créer un classificateur extrêmement simple sur un jeu de données simple. Il ne sera pas possible de le tromper (peu importe ce que signifie "facile"), mais ce n’est pas intéressant non plus.

Martin Thoma
la source
3
Une erreur faible n'implique pas de généralisation. C'est une condition nécessaire mais non suffisante.
Juillet
3
@yters Veuillez définir ensuite la généralisation.
Martin Thoma
5
@yters, ce commentaire me fait penser que vous n’avez pas beaucoup lu sur le Machine Learning. Martin a déclaré la précision sur des données invisibles . Vous parlez de précision sur les données d'entraînement. Vous avez fondamentalement raison en ce qui concerne la généralisation, mais sachez que tout le monde ici comprend cela aussi .
Ken Williams
1
@yters Je suis à peu près sûr que Ken (et beaucoup de personnes sur ce site, y compris moi-même) le savent. Cependant, si votre ensemble de tests ne représente pas votre ensemble de données, vous ne pouvez faire aucune déclaration sur la généralisation. Même s'il convient de garder cela à l'esprit, je ne vois pas en quoi cela vous aiderait d'aucune façon à cette question. Vous devez simplement supposer / vous assurer que votre ensemble de tests représente bien vos données au moment de la production. En fait, il est très facile de montrer que vous pouvez rendre n'importe quel classifieur arbitraire, si les échantillons d'apprentissage ne représentent pas la distribution.
Martin Thoma
2
Cela est évident. Vous ne pouvez pas vous attendre à ce qu'un modèle se généralise bien s'il est formé sur la validation des données erronées. Vous avez besoin de meilleures données, pas d'un meilleur modèle.
Emre
9

La réponse en un mot est "régularisation". La formule de dimension VC naïve ne s'applique pas vraiment ici car la régularisation exige que les pondérations ne soient pas générales. Seule une infime proportion (infinitésimale?) De combinaisons de poids a une perte acceptable après régularisation. En conséquence, la vraie dimension est beaucoup moins variée d’ordre de grandeur, donc une généralisation peut se produire avec les ensembles d’entraînement que nous avons. Les résultats réels confirment que la suralimentation ne se produit généralement pas.

David Khoo
la source
2
J'ai vu l'affirmation répétée selon laquelle les résultats concrets montrent que l'apprentissage en profondeur se généralise. Quels sont exactement les résultats qui montrent une généralisation? Tout ce que j'ai vu jusqu'à présent, c'est que DL génère des taux d'erreur faibles sur des ensembles de données particuliers, ce qui ne signifie pas en soi que DL généralisera.
Août
3
il montre de bons résultats ("bien" = meilleur que les autres méthodes de ML) sur des données sur lesquelles il n'a pas été formé . Je ne sais pas comment vous voulez mesurer la généralisation autrement.
lvilnis
3

Nous abordons le document: Comprendre l’apprentissage en profondeur nécessite de repenser la généralisation. dans

Repenser la généralisation nécessite de revenir sur de vieilles idées: approches de la mécanique statistique et comportement complexe en apprentissage Charles H. Martin et Michael W. Mahoney

Voir: https://arxiv.org/pdf/1710.09553.pdf

Fondamentalement, nous affirmons que les limites de la CV sont trop floues car l'approche fondamentale et la manière dont la limite statistique adoptée est irréaliste.

Une meilleure approche réside dans la mécanique statistique, qui considère une classe de fonctions dépendantes des données, prend la limite thermodynamique (pas seulement la limite des grands nombres)

De plus, nous montrons également comment les discontinuités naturelles dans les besoins profonds entraînent des transitions de phase dans la courbe d'apprentissage, ce qui, selon nous, est observé dans le document de Google (ci-dessus).

En ce qui concerne les limites, voir la section 4.2 de notre document

"Clairement, si nous fixons la taille de l'échantillon m et laissons [la taille de la classe de fonctions] N → ∞, [ou inversement, fixons N, prenons m → ∞], nous ne devrions pas nous attendre à un résultat non trivial, puisque [ N] devient plus grand mais la taille de l'échantillon est fixe. Ainsi, en mécanique statistique, on considère généralement le cas où m, N → ∞ tel que α = m / N soit une constante fixe ".

C’est-à-dire qu’il est très rare que nous ajoutions simplement plus de données (m) à un réseau profond. Nous augmentons toujours la taille du réseau (N) également, car nous savons que nous pouvons capturer des caractéristiques / informations plus détaillées à partir des données. Au lieu de cela, nous appliquons dans la pratique ce que nous défendons dans le document - prenons la limite de la grande taille, avec le rapport m / N fixé (au lieu de dire fixer m et laisser N augmenter).

Ces résultats sont bien connus dans la Mécanique statistique de l’apprentissage. L'analyse est plus compliquée, mais les résultats conduisent à une structure beaucoup plus riche qui explique de nombreux phénomènes d'apprentissage en profondeur.

De plus, et en particulier, il est connu que de nombreuses limites issues de statistiques deviennent soit triviales, soit ne s'appliquent plus à des distributions de probabilités non lisses, ou lorsque les variables prennent des valeurs discrètes. Avec les réseaux de neurones, un comportement non trivial résulte de discontinuités (dans les fonctions d'activation), conduisant à des transitions de phase (apparaissant à la limite thermodynamique).

Le document que nous avons rédigé tente d'expliquer les idées essentielles à un auditoire en informatique.

Vapnik lui-même s'est rendu compte que sa théorie n'était pas vraiment applicable aux réseaux de neurones ... depuis 1994

"L'extension de [la dimension VC] aux réseaux multicouches se heurte à [beaucoup] de difficultés .. les algorithmes d'apprentissage existants ne peuvent pas être considérés comme minimisant le risque empirique sur l'ensemble des fonctions implémentables par le réseau ... [car] c'est probable ... la recherche se limitera à un sous-ensemble de [ces] fonctions ... La capacité de cet ensemble peut être très inférieure à celle de l'ensemble ... [et] peut changer avec le nombre d'observations. Cela peut nécessiter une théorie qui considère la notion de capacité non constante avec un sous-ensemble de fonctions "actives" "
Vapnik, Levin et LeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

Bien que ce ne soit pas facile à traiter avec la théorie de la CV, ce n’est pas un problème pour stat mech..et ce qu’elles décrivent ressemble beaucoup à la théorie du paysage énergétique du repliement des protéines. (qui fera l'objet d'un prochain article)

Charles Martin
la source
Cela semble intéressant, mais je ne suis pas sûr de suivre votre argument. Pouvez-vous élaborer sur la première phrase, c.-à-d. Sur la manière dont l'approche fondamentale / la limite statistique est irréaliste, d'une manière autonome qui ne nécessite pas de comprendre la mécanique statistique? Quelles hypothèses font les limites de VC, et pourquoi sont-elles irréalistes? Peut-être que vous pouvez modifier votre réponse pour inclure cette information?
DW
J'ai ajouté une référence au travail original de Vapnik et LeCun (1994) qui traite de la question.
Charles Martin
Et ajouté quelques précisions.
Charles Martin
1

Personne ne semble avoir souligné dans les réponses ci-dessus que la formule de dimension VC citée ne concerne qu'un réseau de neurones à une couche. Mon hypothèse est que la dimension VC augmente de manière exponentielle à mesure que le nombre de couches L augmente. Mon raisonnement est basé sur des réseaux de neurones profonds où la fonction d’activation est remplacée par des réseaux polynomiaux. Ensuite, le degré de polynômes composés augmente de façon exponentielle avec l’augmentation du nombre de couches.

Yan King Yin
la source