En guise de texte d'introduction à toutes les questions que vous nommez, je recommanderais le livre d'apprentissage approfondi . Il donne un large aperçu du domaine. Il explique le rôle de chacun de ces paramètres.
À mon avis, il est très utile de lire sur certaines des architectures les plus populaires (resnet, création, alex-net) et d'extraire les idées clés menant aux décisions de conception. Après avoir lu le livre susmentionné.
Dans le programme des cours auxquels vous vous référez, il est expliqué en détail comment la couche de convolution ajoute un grand nombre de paramètres (poids, biais) et de neurones. Cette couche, une fois formée, est capable d'extraire des motifs de sens de l'image. Pour les couches inférieures, ces filtres ressemblent à des extracteurs de bord. Pour les couches supérieures, ces formes primitives sont combinées pour décrire des formes plus complexes. Ces filtres impliquent un nombre élevé de paramètres et un gros problème de conception de réseaux profonds pour savoir comment décrire des formes complexes tout en réduisant le nombre de paramètres.
Étant donné que les pixels voisins sont fortement corrélés (spécialement dans les couches les plus basses), il est logique de réduire la taille de la sortie en sous-échantillonnant (regroupant) la réponse du filtre. Plus les deux pixels sont éloignés l'un de l'autre, moins ils sont corrélés. Par conséquent, un grand pas dans la couche de mise en commun entraîne une perte d'informations élevée. Parlant librement. Une foulée de 2 et une taille de noyau 2x2 pour la couche de mise en commun est un choix courant.
Une approche plus sophistiquée est le réseau Inception ( Aller plus loin avec les convolutions ) où l'idée est d'augmenter la rareté tout en étant capable d'atteindre une plus grande précision, en échangeant le nombre de paramètres dans une couche convolutionnelle contre un module de démarrage pour les réseaux plus profonds.
Un papier agréable qui fournit des conseils sur les architectures actuelles et le rôle de certaines dimensions de conception d'une structure, de manière systématique est SqueezeNet: précision AlexNet niveau avec 50x moins de paramètres et <0.5MB taille du modèle . Il s'appuie sur les idées introduites dans les modèles mentionnés précédemment.