Au cours des dernières années, les réseaux de neurones convolutifs (CNN) sont devenus le nec plus ultra en matière de reconnaissance d’objets en vision par ordinateur. En règle générale, un CNN se compose de plusieurs couches convolutives, suivies de deux couches entièrement connectées. L'intuition derrière cela est que les couches convolutives apprennent une meilleure représentation des données d'entrée et que les couches entièrement connectées apprennent ensuite à classer cette représentation en un ensemble d'étiquettes.
Cependant, avant que les CNN ne commencent à dominer, les machines à vecteurs de support (SVM) étaient à la pointe de la technologie. Il semble donc raisonnable de dire qu'un SVM est toujours un classificateur plus puissant qu'un réseau neuronal entièrement connecté à deux couches. Par conséquent, je me demande pourquoi les CNN à la pointe de la technologie ont tendance à utiliser les couches entièrement connectées pour la classification plutôt qu'un SVM? De cette façon, vous auriez le meilleur des deux mondes: une représentation de fonctionnalité forte et un classifieur puissant, plutôt qu'une représentation de fonctionnalité puissante mais uniquement un classificateur faible ...
Des idées?