Les réseaux backprop entièrement connectés (au moins couche à couche avec plus de 2 couches masquées) sont des apprenants universels. Malheureusement, ils sont souvent lents à apprendre et ont tendance à trop s'adapter ou à avoir des généralisations maladroites.
En m'amusant avec ces réseaux, j'ai observé que l'élagage de certains bords (de sorte que leur poids est nul et impossible à modifier) a tendance à rendre les réseaux plus rapides à apprendre et à mieux se généraliser. Y a-t-il une raison à cela? Est-ce uniquement à cause d'une diminution de la dimensionnalité de l'espace de recherche de poids, ou y a-t-il une raison plus subtile?
De plus, la meilleure généralisation est-elle un artefact des problèmes «naturels» que je regarde?
la source