[Cette question a également été posée au débordement de la pile]
La question en bref
J'étudie les réseaux de neurones convolutifs, et je crois que ces réseaux ne traitent pas chaque neurone d'entrée (pixel / paramètre) de manière équivalente. Imaginez que nous ayons un réseau profond (plusieurs couches) qui applique une convolution sur une image d'entrée. Les neurones au "milieu" de l'image ont de nombreuses voies uniques vers de nombreux neurones de couche plus profonde, ce qui signifie qu'une petite variation dans les neurones du milieu a un fort effet sur la sortie. Cependant, les neurones au niveau du bord de l'image ont seulement voie (ou, en fonction de la mise en œuvre exacte, de l'ordre de 1 ) voies dans lesquelles leur flux d' information à travers le graphe. Il semble que ceux-ci soient "sous-représentés".
Cela m'inquiète, car cette discrimination des neurones de périphérie évolue de façon exponentielle avec la profondeur (nombre de couches) du réseau. Même l'ajout d'une couche de regroupement maximal n'arrêtera pas l'augmentation exponentielle, seule une connexion complète met tous les neurones sur un pied d'égalité. Je ne suis pas convaincu que mon raisonnement soit correct, cependant, mes questions sont les suivantes:
- Ai-je raison de dire que cet effet se produit dans les réseaux convolutionnels profonds?
- Y a-t-il une théorie à ce sujet, a-t-elle déjà été mentionnée dans la littérature?
- Existe-t-il des moyens de surmonter cet effet?
Parce que je ne suis pas sûr que cela donne suffisamment d'informations, je vais développer un peu plus sur l'énoncé du problème, et pourquoi je crois que c'est une préoccupation.
Explication plus détaillée
https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0
Pourquoi c'est un problème?
Cet effet ne semble pas être un problème à première vue: en principe, les poids devraient s'ajuster automatiquement de manière à ce que le réseau fasse son travail. De plus, les bords d'une image ne sont de toute façon pas si importants dans la reconnaissance d'image. Cet effet n'est peut-être pas perceptible dans les tests de reconnaissance d'image quotidiens, mais il m'inquiète toujours pour deux raisons: 1. généralisation à d'autres applications, et 2. problèmes survenant dans le cas de réseaux très profonds.
1. Il pourrait y avoir d'autres applications, comme la reconnaissance vocale ou sonore, où il n'est pas vrai que les neurones les plus centraux soient les plus importants. L'application de la convolution se fait souvent dans ce domaine, mais je n'ai pu trouver aucun article mentionnant l'effet qui me préoccupe.
Imaginez maintenant que nous perturbons tous les neurones d'une petite quantité. Les neurones centraux entraîneront un changement plus important de la sortie de plusieurs ordres de grandeur, par rapport aux neurones périphériques. Je pense que pour les applications générales et pour les réseaux très profonds, il faudrait trouver des solutions à mon problème?
Réponses:
Des représentations éparses sont attendues dans les modèles hiérarchiques. Peut-être que ce que vous découvrez est un problème intrinsèque à la structure hiérarchique des modèles d'apprentissage profond. Vous trouverez de nombreux articles scientifiques sur les «représentations clairsemées», en particulier dans la recherche sur la mémoire.
Je pense que vous auriez avantage à lire sur les "champs récepteurs" dans le cortex visuel. Il y a non seulement des cellules ON et OFF dans le cerveau des mammifères, mais aussi des cellules RF qui se déclenchent à la fois pendant ON et OFF. Peut-être que le problème des bords / rareté pourrait être contourné en mettant à jour le modèle pour refléter les neurosciences actuelles sur la vision, en particulier dans les modèles animaux.
la source
Vous avez raison de dire que c'est un problème si la convolution ne fonctionne que sur les pixels de l'image, mais le problème disparaît si vous mettez les images à zéro (comme cela est généralement recommandé). Cela garantit que la convolution appliquera le filtre le même nombre de fois à chaque pixel.
la source