Quels sont certains des inconvénients de l’optimisation hyperparamétrique bayésienne?

9

Je suis relativement nouveau dans l'apprentissage automatique et les statistiques, mais je me demandais pourquoi l'optimisation bayésienne n'est pas référée plus souvent en ligne lors de l'apprentissage de l'apprentissage automatique pour optimiser les hyperparamètres de votre algorithme. Par exemple, en utilisant un cadre comme celui-ci: https://github.com/fmfn/BayesianOptimization

L'optimisation bayésienne de vos hyperparamètres présente-t-elle une limitation ou un inconvénient majeur par rapport à des techniques telles que la recherche sur grille ou la recherche aléatoire?

EtienneT
la source
3
Pas de déjeuner gratuit dans la recherche et l'optimisation . En général, à moins que l'évaluation de la fonction de coût soit assez coûteuse et que la dimensionnalité du problème soit quelque peu faible, BO n'est généralement pas la réponse. Le domaine de l'optimisation mathématique n'est pas devenu obsolète à cause de la découverte des processus gaussiens.
usεr11852
3
Excellentes réponses. Mais pourquoi les postez-vous dans les commentaires?
Jan Kukacka
@JanKukacka Bon point. J'ai déplacé mes commentaires vers une réponse.
Sycorax dit Réintégrer Monica le

Réponses:

11
  1. les résultats sont sensibles aux paramètres du modèle de substitution, qui sont généralement fixés à une certaine valeur; cela sous-estime l'incertitude; ou bien vous devez être entièrement bayésien et marginaliser les distributions hyperparamétriques, qui peuvent être coûteuses et lourdes.
  2. il faut une dizaine d'échantillons pour obtenir une bonne surface de substitution dans 2 ou 3 dimensions de l'espace de recherche; l'augmentation de la dimensionnalité de l'espace de recherche nécessite encore plus d'échantillons
  3. L'optimisation bayésienne elle-même dépend d'un optimiseur pour rechercher la surface de substitution, qui a ses propres coûts - ce problème est (espérons-le) moins cher à évaluer que le problème d'origine, mais il s'agit toujours d'un problème d'optimisation contraint par une boîte non convexe (c.-à-d. difficile!)
  4. estimer le modèle BO lui-même a des coûts

Pour le dire autrement, BO est une tentative de garder le nombre d'évaluations de fonctions au minimum et de tirer le meilleur parti de chaque évaluation. Ceci est important si vous effectuez des tests destructifs, ou si vous faites simplement une simulation qui prend un temps obscène à exécuter. Mais dans tous les cas sauf les plus chers, appliquez la recherche aléatoire pure et appelez-la un jour ! (Ou LIPO si votre problème se prête à ses hypothèses.) Il peut vous éviter un certain nombre de maux de tête, tels que l'optimisation de votre programme d'optimisation bayésienne.

Sycorax dit de réintégrer Monica
la source