mon avis est que la mise en commun max & mean n'a rien à voir avec le type de fonctionnalités, mais avec l'invariance de traduction.
Imaginez-vous apprendre à reconnaître un «A» contre un «B» (pas de variation dans les pixels de A et de B). D'abord dans une position fixe dans l'image. Cela peut se faire par une régression logistique (1 neurone): les poids finissent par être un modèle de la différence A - B.
Maintenant, que se passe-t-il si vous vous entraînez à reconnaître à différents endroits de l'image. Vous ne pouvez pas le faire avec une régression logistique, en balayant l'image (c'est-à-dire en rapprochant une couche convolutionnelle avec un filtre) et en étiquetant tous les balayages de l'image A ou B selon le cas, car l'apprentissage des différentes positions interfère - vous essayez en fait d'apprendre la moyenne d'AB comme A / B sont passés à travers votre filtre - mais ce n'est qu'un flou.
avec un regroupement maximal, l'apprentissage n'est effectué que sur le lieu de l'activation maximale (qui, nous l'espérons, est centré sur la lettre). Je ne suis pas si sûr de la mise en commun moyenne - j'imagine que plus d' apprentissage (c'est-à-dire l'ajustement du poids) se fait à l'emplacement d'activation maximum et cela évite le flou) ...
Je vous encourage à simplement implémenter un réseau aussi simple avec 2 classes et 1 filtre pour la couche convolutionnelle, puis le pool max / mean et 1 nœud de sortie et inspecter les poids / performances.