Donc dans une distribution normale, nous avons deux paramètres: la moyenne et la variance σ 2 . Dans le livre Pattern Recognition and Machine Learning , il apparaît tout à coup un hyperparamètre λ dans les termes de régularisation de la fonction d'erreur.
Que sont les hyperparamètres? Pourquoi sont-ils nommés comme tels? Et en quoi sont-ils intuitivement différents des paramètres en général?
Réponses:
Le terme hyperparamètre est assez vague. Je vais l'utiliser pour faire référence à un paramètre qui se trouve à un niveau supérieur de la hiérarchie par rapport aux autres paramètres. Par exemple, considérons un modèle de régression avec une variance connue (1 dans ce cas)
puis un prior sur les paramètres, par exemple
Ici, détermine la distribution de β et β détermine la distribution de y . Quand je veux juste me référer à β, je peux l'appeler le paramètre et quand je veux me référer à λ , je peux l'appeler l'hyperparamètre.λ β β y β λ
La dénomination devient plus compliquée lorsque les paramètres apparaissent à plusieurs niveaux ou lorsqu'il existe des niveaux plus hiérarchiques (et que vous ne voulez pas utiliser le terme hyperhyperparameters). Il est préférable que l'auteur spécifie exactement ce que l'on entend lorsqu'il utilise le terme hyperparamètre ou paramètre d'ailleurs.
la source
Un hyperparamètre est simplement un paramètre qui influe, en tout ou en partie, sur d'autres paramètres. Ils ne résolvent pas directement le problème d'optimisation auquel vous êtes confronté, mais optimisent plutôt les paramètres qui peuvent résoudre le problème (d'où l' hyper , car ils ne font pas partie du problème d'optimisation, mais sont plutôt des "addons"). Pour ce que j'ai vu, mais je n'ai aucune référence, cette relation est unidirectionnelle (un hyperparamètre ne peut pas être influencé par les paramètres sur lesquels il a une influence, donc aussi l' hyper ). Ils sont généralement introduits dans les schémas de régularisation ou de méta-optimisation.
Par exemple, votre paramètre peut influencer librement μ et σ pour ajuster le coût de régularisation (mais μ et σ n'ont aucune influence sur λ ). Ainsi, λ est un hyperparamètre pour μ et σ . Si vous aviez un paramètre τ supplémentaire influençant λ , ce serait un hyperparamètre pour λ , et un hyperhyperparamètre pour μ et σ (mais je n'ai jamais vu cette nomenclature, mais je ne pense pas que ce serait mal si je le voyais) .λ μ σ μ σ λ λ μ σ τ λ λ μ σ
J'ai trouvé le concept d'hyperparamètre très utile pour la validation croisée, car il vous rappelle la hiérarchie des paramètres, tout en vous rappelant que si vous modifiez toujours des (hyper-) paramètres, vous êtes toujours en cours de validation croisée et ne généralisez pas, vous devez donc restez prudent dans vos conclusions (pour éviter la pensée circulaire).
la source
Les autres explications sont un peu vagues; voici une explication plus concrète qui devrait le clarifier.
Les hyperparamètres sont des paramètres du modèle uniquement , et non du processus physique qui est modélisé. Vous les introduisez «artificiellement» pour faire «fonctionner» votre modèle en présence de données finies et / ou de temps de calcul finis . Si vous aviez un pouvoir infini pour mesurer ou calculer quoi que ce soit, les hyperparamètres n'existeraient plus dans votre modèle, car ils ne décriraient aucun aspect physique du système réel.
Les paramètres normaux, en revanche, sont ceux qui décrivent le système physique, et ne sont pas simplement des artefacts de modélisation.
la source
Ce n'est pas un terme défini de manière précise, je vais donc vous donner une autre définition qui semble cohérente avec l'usage courant.
Permettez-moi de vous détendre avec un exemple, la régression de crête. Dans la régression de crête, nous résolvons le problème d'optimisation suivant:
la source
Comme l'a souligné précisément @jaradniemi, une utilisation du terme hyperparamètre provient de la modélisation hiérarchique ou à plusieurs niveaux, où vous avez une cascade de modèles statistiques, l'un construit sur / sous les autres, en utilisant des énoncés de probabilité généralement conditionnels.
Mais la même terminologie apparaît dans d'autres contextes avec des significations différentes également. Par exemple, j'ai vu le terme hyperparamètre utilisé pour faire référence aux paramètres de la simulation (longueur courante, nombre de réplications indépendantes, nombre de particules en interaction dans chaque réplication, etc.) d'un modèle stochastique, qui ne résultait pas d'un multiniveau la modélisation.
la source