Que sont les régularités et la régularisation?

12

J'entends ces mots de plus en plus alors que j'étudie l'apprentissage automatique. En fait, certaines personnes ont remporté la médaille Fields en travaillant sur les régularités des équations. Donc, je suppose que c'est un terme qui va de la physique statistique / mathématique à l'apprentissage automatique. Naturellement, un certain nombre de personnes à qui j'ai demandé ne pouvaient tout simplement pas l'expliquer intuitivement.

Je sais que des méthodes telles que le décrochage aident à la régularisation (=> ils disent que cela réduit le sur-ajustement, mais je ne comprends vraiment pas ce que c'est: si cela ne fait que réduire le sur-ajustement, pourquoi ne pas simplement l'appeler méthodes anti-sur-ajustement => il doit y avoir quelque chose de plus je pense, d’où cette question).

Je serais vraiment reconnaissant (je suppose que la communauté ML naïve le serait aussi!) Si vous pouviez expliquer:

  1. Comment définissez-vous la régularité? Qu'est-ce que la régularité?

  2. La régularisation est-elle un moyen d'assurer la régularité? c'est-à-dire capturer des régularités?

  3. Pourquoi les méthodes d'assemblage comme le décrochage, les méthodes de normalisation prétendent-elles toutes faire de la régularisation?

  4. Pourquoi ces éléments (régularité / régularisation) apparaissent-ils dans le machine learning?

Merci beaucoup pour votre aide.

Rafael
la source

Réponses:

8

La régularisation est utilisée dans presque tous les algorithmes d'apprentissage automatique où nous essayons d'apprendre à partir d'échantillons finis de données de formation.

Je vais tenter de répondre indirectement à vos questions spécifiques en expliquant la genèse du concept de régularisation. La théorie complète est beaucoup plus détaillée et cette explication ne doit pas être interprétée comme complète, mais elle vise simplement à vous orienter dans la bonne direction pour une exploration plus approfondie. Puisque votre objectif principal est d'obtenir une compréhension intuitive de la régularisation, j'ai résumé et simplifié fortement l'explication suivante du chapitre 7 de "Neural Networks and Learning Machines", 3e édition de Simon Haykin (et j'ai omis plusieurs détails en le faisant).

xiyif

Pour aller plus loin, comprenons la terminologie d'Hadamard d'un problème "bien posé" - un problème est bien posé s'il remplit les trois conditions suivantes:

  1. xiyi
  2. x1x2f(x1)=f(x2)x1=x2
  3. f

Pour l'apprentissage supervisé, ces conditions peuvent être violées car:

  1. Une sortie distincte peut ne pas exister pour une entrée donnée.
  2. Il peut ne pas y avoir suffisamment d'informations dans les échantillons d'apprentissage pour construire un mappage d'entrée-sortie unique (car l'exécution de l'algorithme d'apprentissage sur différents échantillons d'apprentissage entraîne différentes fonctions de mappage).
  3. Le bruit dans les données ajoute une incertitude au processus de reconstruction qui peut affecter sa stabilité.

Pour résoudre ces problèmes "mal posés", Tikhonov a proposé une méthode de régularisation pour stabiliser la solution en incluant une fonction non négative qui intègre des informations préalables sur la solution.

La forme la plus courante d'information préalable implique l'hypothèse que la fonction de mappage entrée-sortie est fluide - c'est-à-dire que des entrées similaires produisent des sorties similaires.

λfλ

λ

Voici quelques exemples de telles fonctions de coût régularisé:

Régression linéaire:

J(θ)=1mi=1m[hθ(xi)yi]2+λ2mj=1nθj2

Régression logistique:

J(θ)=1mi=1m[yilog(hθ(xi))(1yi)log(1hθ(xi))]+λ2mj=1nθj2

θxhθ(x)y

L2

L'effet net de l'application de la régularisation est de réduire la complexité du modèle, ce qui réduit le sur-ajustement. D'autres approches de régularisation (non répertoriées dans les exemples ci-dessus) incluent des modifications aux modèles structurels tels que les arbres de régression / classification, les arbres boostés, etc. en supprimant les nœuds pour rendre les arbres plus simples. Plus récemment, cela a été appliqué dans ce que l'on appelle le «deep learning» en supprimant les connexions entre les neurones d'un réseau de neurones.

Une réponse spécifique au Q3 est que certaines méthodes d'assemblage telles que Random Forest (ou des systèmes de vote similaires) parviennent à une régularisation en raison de leur méthode inhérente, à savoir voter et élire la réponse à partir d'une collection d'arbres non régularisés. Même si les arbres individuels sont surajustés, le processus de «calcul de la moyenne» de leur résultat empêche l'ensemble de sur-ajuster à l'ensemble d'entraînement.

ÉDITER:

Le concept de régularité appartient à la théorie des ensembles axiomatiques, vous pouvez vous référer à cet article pour les pointeurs - en.wikipedia.org/wiki/Axiom_of_regularity et explorer ce sujet plus en détail si vous êtes intéressé par les détails.

Sur la régularisation pour les réseaux neuronaux: lors de l'ajustement des poids lors de l'exécution de l'algorithme de rétropropagation, le terme de régularisation est ajouté à la fonction de coût de la même manière que les exemples de régression linéaire et logistique. L'ajout du terme de régularisation empêche donc la rétropropagation d'atteindre les minima globaux.

L'article décrivant la normalisation par lots pour les réseaux de neurones est - Normalisation par lots: accélération de la formation en réseau profond en réduisant le décalage covariable interne, Ioffe, Szegedy, 2015. On sait que la rétropropagation pour former un réseau de neurones fonctionne mieux lorsque les variables d'entrée sont normalisées. Dans cet article, les auteurs ont appliqué la normalisation à chaque mini-lot utilisé dans la descente de gradient stochastique pour éviter le problème des «gradients disparaissants» lors de la formation de nombreuses couches d'un réseau neuronal. L'algorithme décrit dans leur article traite la moyenne et la variance calculées dans chaque lot pour chaque couche d'activations comme un autre ensemble de paramètres optimisés dans le SGD mini-lot (en plus des poids NN). Les activations sont ensuite normalisées à l'aide de l'ensemble d'entraînement complet. Vous pouvez vous référer à leur article pour plus de détails sur cet algorithme. En utilisant cette méthode, ils ont pu éviter d'utiliser les abandons pour la régularisation, et donc leur affirmation qu'il s'agit d'un autre type de régularisation.

Sandeep S. Sandhu
la source
merci pour la grande réponse. Pourriez-vous expliquer mathématiquement un peu comment des méthodes telles que la normalisation parviennent à la régularisation? Dans une conférence de Goodfellow, il a déclaré que tout ce qui pouvait être différencié pouvait servir de régularisateur pour un réseau neuronal. Savez-vous également quelles sont les régularités? signifient-ils simplement des modèles ou y a-t-il des mathématiques derrière cela? Merci encore.
Rafael
Merci pour la réponse. Je ne me souviens pas de la conversation. Dans les réseaux neuronaux, nous ajoutons des couches telles que la normalisation par lots. Je voulais savoir comment ils contribuent à la régularisation?
Rafael
Modifié pour répondre à votre commentaire ainsi que pour ajouter les réponses données dans les commentaires précédents.
Sandeep S. Sandhu
3

question 1

Je ne connais aucune définition canonique, et vos questions suggèrent que ce terme est utilisé avec des significations différentes. Commençons par des exemples simples (qui répondront à la question 2).

question 2

La régression des crêtes peut être un bon point de départ. Il s'agit d'une méthode de régularisation qui contourne le problème posé par une matrice singulière .

Cependant, le "paramètre de régularisation" défini dans les méthodes de boosting de gradient (par exemple) est là pour assurer une faible complexité du modèle.

question 3

La normalisation comme régularisation a une autre signification (et cette terminologie est assez trompeuse). Il transforme un problème complexe "du point de vue de la descente du gradient" en quelque chose de plus simple. Bien qu'il ne soit pas nécessaire d'étalonner un réseau de neurones, cela aide vraiment pendant l'étalonnage. (Cependant, notez que si nous pouvions trouver l'extrema global des fonctions arbitraires, la normalisation ne serait pas nécessaire)

Question 4

La régularisation (comme moyen de réduire la complexité d'un modèle) est utilisée pour réduire l'overfit. Moins un modèle est complexe, moins il est susceptible de s'adapter.

De côté

S. Watanabe fait un usage rigoureux de cette terminologie dans ses recherches.

RUser4512
la source