Pourquoi l'apprentissage en profondeur ne fonctionne-t-il pas bien avec une petite quantité de données?

8

Je suis nouveau dans l'apprentissage en profondeur, donc cela pourrait être une question banale. Mais je me demande pourquoi l'apprentissage en profondeur (ou réseau de neurones) ne fonctionne pas très bien sur de petites données étiquetées. Quels que soient les articles de recherche que j'ai lus, leurs ensembles de données sont énormes. Intuitivement, cela n'est pas surprenant, car notre cerveau prend beaucoup de temps à s'entraîner. Mais existe-t-il une preuve mathématique ou une raison pour laquelle le réseau de neurones ne fonctionne pas bien dans de tels cas?

bluechill
la source

Réponses:

11

Les réseaux de neurones utilisés dans les modèles typiques d'apprentissage en profondeur ont un très grand nombre de nœuds avec de nombreuses couches, et donc de nombreux paramètres qui doivent être estimés. Cela nécessite beaucoup de données. Un petit réseau de neurones (avec moins de couches et moins de paramètres libres) peut être formé avec succès avec un petit ensemble de données - mais cela ne serait généralement pas décrit comme un "apprentissage en profondeur".

procureur
la source
3
+1. La complexité du modèle ne devrait toujours croître que lentement avec la taille de l'échantillon, et l'apprentissage en profondeur est un modèle assez complexe, ce qui implique qu'il ne fonctionnera généralement pas bien pour les petits échantillons. The Elements of Statistical Learning ( disponible en téléchargement gratuit ) en discute - fortement recommandé.
Stephan Kolassa du
Merci. Est-ce à dire que si j'essaie toujours d'apprendre un modèle en utilisant de petites données, je vais suréquiper le modèle?
bluechill
3
Vous êtes plus susceptible de sur-équiper si vous avez une petite quantité de données par rapport au nombre de paramètres dans votre modèle - cela est vrai pour n'importe quel modèle. Vous pouvez ajouter des régularisateurs (par exemple, pénaliser les poids importants, ajouter du bruit aux données d'entrée, supprimer des unités cachées, etc.) à votre modèle pour éviter cela, mais c'est une sorte d'art plutôt qu'une science pour le moment.
lmjohns3