J'essaie donc de faire de la pré-formation sur des images d'humains en utilisant des filets convolutionnels. Je lis les journaux ( article1 et Epais2 ) et ce lien stackoverflow , mais je ne suis pas sûr que je suis comprendre la structure des filets (il est pas bien défini dans les journaux).
Des questions:
Je peux avoir mon entrée suivie d'une couche de bruit suivie d'une couche conv, suivie d'une couche de regroupement - là après - dois-je désassocier avant de donner ma sortie (qui est la même que mon image d'entrée)?
Disons que j'ai plusieurs (135 240) images. Si j'utilise 32, (12,21) noyaux, puis (2,2) la mise en commun, je me retrouverai avec 32 (62, 110) cartes de fonctionnalités. Est-ce que maintenant je désassemble pour obtenir 32 (124, 220) cartes d'entités et ensuite les aplatir? avant de donner ma (135 240) couche de sortie?
Si j'ai plusieurs de ces couches de pool de conv, dois-je les former une par une - comme dans les autoencodeurs débruits empilés? Ou - puis-je avoir quelque chose comme input-conv-pool-conv-pool-conv-pool-output (la sortie étant la même que l'entrée)? Dans ce cas, comment le pooling, le dépooling est-il censé être géré? Dois-je uniquement désassembler la dernière couche de pool avant la sortie? Et encore une fois - quel devrait être le facteur de redimensionnement de cette mise en commun? L'intention est-elle de ramener les cartes d'entités à la forme de l'entrée?
Dois-je introduire des couches de bruit après chaque couche conv-pool-depool?
Et puis, lors du réglage fin - suis-je censé simplement supprimer les couches de désagrégation et laisser le reste inchangé. Ou dois-je supprimer à la fois les couches de bruit et les couches de désassemblage
Quelqu'un peut-il m'indiquer une URL / papier qui a détaillé l'architecture d'un tel encodeur automatique convolutionnel empilé pour faire une pré-formation sur les images?
J'ai également recherché un modèle entièrement expliqué de codeurs automatiques convolutionnels empilés.
Je suis tombé sur trois architectures différentes. Je les étudie toujours et je pensais que cela pourrait aider d'autres personnes qui commencent également à explorer les CAE. Toute autre référence à des articles ou à des implémentations serait très utile.
Les couches de (convolution) __ x_times -> (déconvolution) __ x_times,
et obtenir la même taille que l'entrée.
la source
ASK QUESTION
en haut de la page et posez-la là, alors nous pouvons vous aider correctement. Puisque vous êtes nouveau ici, vous voudrez peut-être faire notre visite , qui contient des informations pour les nouveaux utilisateurs.Je ne pense pas que la méthode d'entraînement en couches soit correcte. Par exemple, l'architecture de l'auto-encodeur convolutionnel est:
entrée-> conv-> max_poo-> de_max_pool-> de_conv-> sortie.
Il s'agit d'un encodeur automatique et doit être formé à l'ensemble de l'architecture. De plus, il n'y a pas de critère strict pour déterminer si un codeur automatique convolutionnel a besoin d'un pool et d'un_pool. généralement, un pool mais sans un_pool. Voici une comparaison expérimentale avec l'absence de pool et un_pool.
https://arxiv.org/pdf/1701.04949.pdf
la source