Validation croisée vs Bayes empiriques pour estimer les hyperparamètres

20

Étant donné un modèle hiérarchique , je veux un processus en deux étapes pour s'adapter au modèle. Tout d'abord, corrigez une poignée d'hyperparamètres , puis faites l'inférence bayésienne sur le reste des paramètres . Pour fixer les hyperparamètres, j'envisage deux options.θ ϕp(x|ϕ,θ)θϕ

  1. Utilisez Empirical Bayes (EB) et maximisez la vraisemblance marginale (en intégrant le reste du modèle qui contient des paramètres dimensionnels élevés).p(all data|θ)
  2. Utilisez des techniques de validation croisée (CV) telles que la validation croisée fold pour choisir qui maximise la probabilité .θ p ( données d'essai | données d'entraînement , θ )kθp(test data|training data,θ)

L'avantage d'EB est que je peux utiliser toutes les données à la fois, tandis que pour CV, je dois (potentiellement) calculer la probabilité du modèle plusieurs fois et rechercher . Les performances d'EB et de CV sont comparables dans de nombreux cas (*), et souvent EB est plus rapide à estimer.θ

Question: Existe-t-il un fondement théorique qui relie les deux (par exemple, EB et CV sont les mêmes dans la limite des grandes données)? Ou lie EB à un critère de généralisation tel que le risque empirique? Quelqu'un peut-il désigner un bon matériel de référence?


(*) À titre d'illustration, voici une figure tirée de l' apprentissage machine de Murphy , section 7.6.4, où il dit que pour la régression de crête, les deux procédures donnent des résultats très similaires:

murphy - bayés empiriques vs CV

Murphy dit également que le principal avantage pratique des Bayes empiriques (il l'appelle "procédure de preuve") par rapport au CV réside dans le fait que compose de nombreux hyper-paramètres (par exemple, une pénalité distincte pour chaque caractéristique, comme dans la détermination automatique de pertinence ou ARD). Là, il n'est pas du tout possible d'utiliser CV.θ

Memming
la source
Pouvez-vous décrire plus en détail ce que vous faites pour la méthode de validation croisée? Fixez-vous et utilisez -vous ensuite les données de formation pour estimer les autres paramètres avant de valider? θ
Neil G
@NeilG maximisant la somme de vraisemblance des données prédictives marginales logarithmiques sur les ensembles de validation croisée (k est intégré).
Memming
1
Si est intégré les deux fois, alors quelle est la différence entre CV et EB? k
Neil G
2
Grande question. J'ai pris la liberté d'ajouter une figure du manuel de Murphy à votre question pour illustrer votre argument selon lequel deux procédures sont souvent comparables. J'espère que cela ne vous dérangera pas.
amibe dit Réintégrer Monica le

Réponses:

16

Je doute qu'il y ait un lien théorique qui dit que le CV et la maximisation des preuves sont asymptotiquement équivalents car les preuves nous indiquent la probabilité des données compte tenu des hypothèses du modèle . Ainsi, si le modèle est mal spécifié, les preuves peuvent ne pas être fiables. La validation croisée donne en revanche une estimation de la probabilité des données, que les hypothèses de modélisation soient correctes ou non. Cela signifie que les preuves peuvent être un meilleur guide si les hypothèses de modélisation sont correctes en utilisant moins de données, mais la validation croisée sera robuste contre les spécifications erronées du modèle. Le CV est asymptotiquement impartial, mais je suppose que les preuves ne le sont pas à moins que les hypothèses du modèle ne soient exactes.

C'est essentiellement mon intuition / expérience; Je serais également intéressé à entendre parler de recherches à ce sujet.

Notez que pour de nombreux modèles (par exemple la régression des crêtes, les processus gaussiens, la régression des crêtes du noyau / LS-SVM, etc.), la validation croisée avec un seul retrait peut être effectuée au moins aussi efficacement que l'estimation des preuves, il n'y a donc pas nécessairement de calcul. avantage là-bas.

Addendum: les estimations de la probabilité marginale et de la validation croisée sont évaluées sur un échantillon fini de données, et il existe donc toujours une possibilité de sur-ajustement si un modèle est réglé en optimisant l'un ou l'autre critère. Pour les petits échantillons, la différence de variance des deux critères peut décider laquelle fonctionne le mieux. Voir mon papier

Gavin C. Cawley, Nicola LC Talbot, "Sur le sur-ajustement dans la sélection de modèles et les biais de sélection ultérieurs dans l'évaluation des performances", Journal of Machine Learning Research, 11 (juillet): 2079−2107, 2010. ( pdf )

Dikran Marsupial
la source
Pourquoi dites-vous que le CV est robuste contre un modèle mal spécifié? Dans son cas, il n'y a pas une telle protection car la validation croisée recherche sur le même espace qu'EB calcule une probabilité. Si ses hypothèses de modélisation sont erronées, la validation croisée ne le sauvera pas.
Neil G
1
CV est robuste contre les erreurs de spécification en ce sens qu'il donne toujours un indicateur utile des performances de généralisation. La probabilité marginale peut ne pas l'être car elle dépend de la priorité sur (par exemple), même après que vous ayez marginalisé sur . Donc, si votre précédent sur était trompeur, la probabilité marginale peut être un guide trompeur sur les performances de généralisation. Voir la monographie de Grace Wahba sur les «modèles splines pour les données d'observation», section 4.8 (cela ne dit pas grand-chose, mais il n'y a pas grand-chose sur ce sujet AFAIK). ϕ θϕϕθ
Dikran Marsupial
ps J'ai effectué une analyse pour éviter le sur-ajustement dans les réseaux de neurones avec régularisation bayésienne où les paramètres de régularisation sont réglés via une maximisation de vraisemblance marginale. Il y a des situations où cela fonctionne très mal (pire que de ne pas avoir de régularisation du tout). Cela semble être un problème de mauvaise spécification du modèle.
Dikran Marsupial
Il peut obtenir le même "indicateur de performance de généralisation" en vérifiant la probabilité logarithmique totale des données compte tenu de la distribution estimée renvoyée par EB (qui sera égale à l'entropie de cette distribution). Il n'y a aucun moyen de le battre dans ce cas car c'est la solution analytique à ce problème. Je ne vois pas pourquoi la validation croisée serait logique lorsque vous pouvez calculer une probabilité d'EB.
Neil G
2
@probabilityislogic, je ne sais pas trop où vous en êtes (problème sans aucun doute de ma part!; o). Je peux vous dire par expérience pratique que le problème est bien réel. Je travaille sur des problèmes de sélection de modèle depuis plusieurs années et j'ai rencontré de nombreux problèmes où maximiser la probabilité marginale s'avère être une très mauvaise idée. La validation croisée fonctionne à peu près aussi bien pour la plupart des ensembles de données, mais lorsqu'elle fonctionne mal, elle est rarement catastrophique comme la maximisation des preuves le fait parfois.
Dikran Marsupial
-1

Si vous n'aviez pas les autres paramètres , alors EB est identique à CV sauf que vous n'avez pas à chercher. Vous dites que vous intégrez dans CV et EB. Dans ce cas, ils sont identiques.kkk

Neil G
la source