J'ai lu des articles sur la création manuelle d'images pour "tromper" un réseau de neurones (voir ci-dessous).
Est-ce parce que les réseaux ne modélisent que la probabilité conditionnelle ?
Si un réseau peut modéliser la probabilité conjointe p ( y , x ) , de tels cas se produiront-ils toujours?
Je suppose que ces images générées artificiellement sont différentes des données d'entraînement, donc elles sont de faible probabilité . Par conséquent, p ( y , x ) doit être faible même si p ( y | x ) peut être élevé pour de telles images.
Mise à jour
J'ai essayé quelques modèles génératifs, il s'est avéré ne pas être utile, donc je suppose que c'est probablement une conséquence de MLE?
Je veux dire dans le cas où la divergence KL est utilisée comme fonction de perte, la valeur de où p d a t a ( x ) est petite n'affecte pas la perte. Donc, pour une image artificielle qui ne correspond pas à p d a t a , la valeur de p θ peut être arbitraire.
Mise à jour
J'ai trouvé un blog d'Andrej Karpathy qui montre
Ces résultats ne sont pas spécifiques aux images, ConvNets, et ils ne sont pas non plus un «défaut» dans le Deep Learning.
EXPLIQUER ET EXPLIQUER DES EXEMPLES ADVERSARIAUX Les réseaux de neurones profonds sont facilement trompés: des prédictions de haute confiance pour des images méconnaissables
Réponses:
Les types de modèles auxquels vous faites référence sont appelés modèles «génératifs», par opposition à discriminatoires, et ne sont pas vraiment mis à l'échelle vers des données de grande dimension. Une partie des succès de NN dans les tâches langagières est le passage d'un modèle génératif (HMM) à un modèle «plus» discriminatoire (par exemple, MEMM utilise une régression logistique qui permet aux données contextuelles d'être utilisées efficacement https://en.wikipedia.org/ wiki / Hidden_Markov_model # Extensions )
Je dirais que la raison pour laquelle ils sont dupes est un problème plus général. C'est la domination actuelle de l'IA «superficielle» basée sur le ML sur des méthodes plus sophistiquées. [dans de nombreux articles, il est mentionné que d'autres modèles de ML sont également facilement dupés - http://www.kdnuggets.com/2015/07/deep-learning-adversarial-examples-misconceptions.html - Ian Goodfellow]
le «modèle de langage» le plus efficace pour de nombreuses tâches est le «sac de mots». Personne ne prétendrait que cela représente un modèle significatif de langage humain. ce n'est pas difficile d'imaginer que ce genre de modèles est également facilement dupe.
de même, les tâches de vision par ordinateur telles que la reconnaissance d'objets ont été révolutionnées par un `` sac visuel de mots '' qui a emporté les méthodes les plus exigeantes en calcul (qui ne pouvaient pas être appliquées à des ensembles de données massifs).
CNN est, je dirais, un meilleur «sac visuel de mots» - comme vous le montrez dans vos images, les erreurs sont faites au niveau des pixels / des fonctionnalités de bas niveau; malgré toute l'hyperbole, il n'y a pas de représentation de haut niveau dans les couches cachées - (tout le monde fait des erreurs, le fait est qu'une personne ferait des `` erreurs '' en raison de caractéristiques de niveau supérieur et reconnaîtrait par exemple une caricature d'un chat, ce que je ne fais pas '' t croire qu'un NN le ferait).
Un exemple d'un modèle plus sophistiqué de vision par ordinateur (qui fonctionne moins bien que NN) est par exemple le modèle des «pièces déformables».
la source
Pour autant que je sache, la plupart des réseaux de neurones n'utilisent pas de distribution de probabilité a priori sur les images d'entrée. Cependant, vous pouvez interpréter la sélection de l'ensemble d'apprentissage comme une telle distribution de probabilité. Dans cette vue, il est peu probable que ces images générées artificiellement soient sélectionnées comme images dans l'ensemble de test. Une façon de mesurer la «probabilité conjointe» serait de générer des images au hasard, puis de les étiqueter. Le problème serait que la vaste majorité VAST n'aurait pas d'étiquette. Donc, obtenir un nombre raisonnable d'exemples étiquetés prendrait trop de temps.
la source