Qu'est-ce qu'une étude d'ablation? Et existe-t-il un moyen systématique de l'exécuter?

La signification originale de «l'ablation» est l' ablation chirurgicale des tissus corporels . Le terme «étude d'ablation» trouve ses racines dans le domaine de la neuropsychologie expérimentale des années 1960 et 1970, où des parties du cerveau des animaux ont été prélevées pour étudier l'effet que cela avait sur leur comportement.

Dans le cadre de l'apprentissage automatique, et en particulier des réseaux de neurones profonds complexes, une «étude d'ablation» a été adoptée pour décrire une procédure où certaines parties du réseau sont supprimées, afin de mieux comprendre le comportement du réseau.

Le terme a retenu l'attention depuis un tweet de François Chollet , principal auteur du cadre d'apprentissage en profondeur Keras, en juin 2018:

Les études d'ablation sont cruciales pour la recherche sur l'apprentissage en profondeur - je ne saurais trop insister sur ce point. Comprendre la causalité dans votre système est le moyen le plus simple de générer des connaissances fiables (le but de toute recherche). Et l'ablation est un moyen très simple d'examiner la causalité.

Si vous prenez une configuration expérimentale d'apprentissage en profondeur compliquée, il est probable que vous puissiez supprimer quelques modules (ou remplacer certaines fonctionnalités entraînées par des modules aléatoires) sans perte de performances. Débarrassez-vous du bruit dans le processus de recherche: faites des études d'ablation.

Vous ne comprenez pas bien votre système? Beaucoup de pièces mobiles? Vous voulez vous assurer que la raison pour laquelle cela fonctionne est vraiment liée à votre hypothèse? Essayez de supprimer des éléments. Passez au moins ~ 10% de votre temps d'expérimentation dans un effort honnête pour réfuter votre thèse.

À titre d'exemple, Girshick et ses collègues (2014) décrivent un système de détection d'objets qui se compose de trois «modules»: le premier propose des régions d'une image dans lesquelles rechercher un objet à l'aide de l'algorithme de recherche sélective ( Uijlings et collègues 2012 ), qui alimente un grand réseau de neurones convolutifs (avec 5 couches convolutives et 2 couches entièrement connectées) qui effectue l'extraction des caractéristiques, qui à son tour alimente un ensemble de machines à vecteurs de support pour la classification. Afin de mieux comprendre le système, les auteurs ont réalisé une étude d'ablation où différentes parties du système ont été supprimées - par exemple, la suppression d'une ou des deux couches entièrement connectées du CNN a entraîné une perte de performances étonnamment faible, ce qui a permis aux auteurs de conclure

Une grande partie du pouvoir de représentation du CNN provient de ses couches convolutives, plutôt que des couches beaucoup plus grandes et densément connectées.

Le PO demande des détails sur / comment / réaliser une étude d'ablation et des références complètes. Je ne crois pas qu'il y ait une réponse «taille unique» à cela. Les mesures sont susceptibles de différer, selon l'application et les types de modèle. Si nous limitons le problème à un seul réseau de neurones profond, il est relativement simple de voir que nous pouvons supprimer des couches de manière raisonnée et explorer comment cela modifie les performances du réseau. Au-delà de cela, dans la pratique, chaque situation est différente et dans le monde des grandes applications complexes d'apprentissage automatique, cela signifie qu'une approche unique sera probablement nécessaire pour chaque situation.

Dans le contexte de l'exemple de l'OP - régression linéaire - une étude d'ablation n'a pas de sens, car tout ce qui peut être «supprimé» d'un modèle de régression linéaire est certains des prédicteurs. Faire cela d'une manière "fondée sur des principes" est simplement une procédure de sélection inversée par étapes, qui est généralement mal vue - voir ici , ici et ici pour plus de détails. Une procédure de régularisation telle que le Lasso est une bien meilleure option pour la régression linéaire.

Réfs:

Girshick, R., Donahue, J., Darrell, T. et Malik, J., 2014. Hiérarchies de fonctionnalités riches pour une détection précise des objets et une segmentation sémantique. Dans Actes de la conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes (pp. 580-587).

Uijlings, JR, Van De Sande, KE, Gevers, T. et Smeulders, AW, 2013. Recherche sélective pour la reconnaissance d'objets. Journal international de vision par ordinateur, 104 (2), pp.154-171.

Robert Long
la source

@cgo cela répond-il à votre question? Si oui, pouvez-vous le marquer comme la réponse acceptée ...

Robert Long

Qu'est-ce qu'une étude d'ablation? Et existe-t-il un moyen systématique de l'exécuter?

Réponses: