Quelles sont les techniques utiles d'augmentation des données pour les réseaux de neurones convolutionnels profonds?

13

Contexte: J'ai récemment compris à un niveau plus profond l'importance de l'augmentation des données lors de la formation des réseaux de neurones convolutionnels après avoir vu cet excellent discours de Geoffrey Hinton .

Il explique que les réseaux de neurones convolutifs de génération actuelle ne sont pas en mesure de généraliser le cadre de référence de l'objet testé, ce qui rend difficile pour un réseau de vraiment comprendre que les images en miroir d'un objet sont les mêmes.

Certaines recherches ont tenté de remédier à cela. Voici l'un des nombreux exemples . Je pense que cela aide à établir à quel point l'augmentation des données est critique lors de la formation des réseaux de neurones convolutionnels.

Les techniques d'augmentation des données sont rarement comparées les unes aux autres. Par conséquent:

Des questions:

  • Quels sont les articles où les pratiquants ont rapporté une performance exceptionnellement meilleure?

  • Quelles sont les techniques d'augmentation des données que vous avez trouvées utiles?

rhadar
la source
Salut @rhadar, as-tu des nouvelles? Merci :)
nullgeppetto

Réponses:

1

Seconde. 1: Augmentation des données Étant donné que les réseaux profonds doivent être formés sur un grand nombre d'images de formation pour obtenir des performances satisfaisantes, si l'ensemble de données d'image d'origine contient des images de formation limitées, il est préférable de procéder à une augmentation des données pour améliorer les performances. De plus, l'augmentation des données devient la chose à faire lors de la formation d'un réseau profond.

  • Il existe de nombreuses façons d'augmenter les données, telles que le retournement horizontal populaire, les recadrages aléatoires et le tremblement des couleurs. De plus,
    vous pouvez essayer des combinaisons de plusieurs traitements différents, par exemple,
    faire la rotation et la mise à l'échelle aléatoire en même temps. De plus,
    vous pouvez essayer d'augmenter la saturation et la valeur (composants S et V de l'
    espace colorimétrique HSV) de tous les pixels à une puissance comprise entre 0,25 et 4 (la même chose
    pour tous les pixels d'un patch), multipliez ces valeurs par un facteur
    compris entre 0,7 et 1,4, et ajoutez-leur une valeur comprise entre -0,1 et 0,1.
    En outre, vous pouvez ajouter une valeur comprise entre [-0,1, 0,1] à la teinte (
    composante H de HSV) de tous les pixels de l'image / du patch.

  • Krizhevsky et al. 1 a proposé le PCA fantaisie lors de la formation du célèbre Alex-Net en 2012. Le PCA fantaisie modifie les intensités des
    canaux RVB dans les images d'entraînement. Dans la pratique, vous pouvez d'abord effectuer une PCA sur l'ensemble des valeurs de pixels RVB tout au long de vos images d'entraînement. Et
    puis, pour chaque image d'entraînement, ajoutez simplement la quantité suivante à
    chaque pixel d'image RVB (c'est-à-dire, I_ {xy} = [I_ {xy} ^ R, I_ {xy} ^ G, I_ {xy} ^ B] ^ T ):
    [bf {p} _1, bf {p} _2, bf {p} _3] [alpha_1 lambda_1, alpha_2 lambda_2, alpha_3
    lambda_3] ^ T où, bf {p} _i et lambda_i sont le i-ème vecteur propre et
    valeur propre de la matrice de covariance 3x3 des valeurs de pixels RVB,
    respectivement, et alpha_i est une variable aléatoire tirée d'une valeur gaussienne
    avec zéro moyen et écart type 0,1. Veuillez noter que chaque
    alpha_i n'est dessiné qu'une seule fois pour tous les pixels d'une
    image d'entraînement particulière jusqu'à ce que cette image soit utilisée à nouveau pour l'entraînement. Autrement
    dit, lorsque le modèle rencontre à nouveau la même image d'apprentissage, il produira
    aléatoirement un autre alpha_i pour l'augmentation des données. Dans 1 , ils ont
    affirmé que «l'ACP fantaisie pourrait approximativement capturer une
    propriété importante des images naturelles, à savoir que l'identité de l'objet est invariante aux changements d'intensité et de couleur de l'éclairage». Pour les
    performances de classification, ce schéma a réduit le taux d'erreur top 1
    de plus de 1% dans la compétition d'ImageNet 2012.

(Source: Conseils et astuces sur les réseaux de neurones profonds (par Xiu-Shen Wei))

Patrick Conway
la source