Bayesian vs MLE, problème de surajustement

12

Dans le livre de Bishop's PRML, il dit que le sur-ajustement est un problème avec l'estimation de maximum de vraisemblance (MLE), et que le bayésien peut l'éviter.

Mais je pense que le sur-ajustement est un problème plus lié à la sélection du modèle, pas à la méthode utilisée pour faire l'estimation des paramètres. Autrement dit, supposons que j'ai un ensemble de données , qui est généré via , maintenant je pourrais choisir différents modèles pour ajuster les données et découvrir Lequel est le meilleur. Et les modèles considérés sont des modèles polynomiaux avec des ordres différents, est d'ordre 1, H_2 est d'ordre 2, H_3 est d'ordre 9.f ( x ) = s i n ( x ) ,DH i H 1

f(x)=sin(x),x[0,1]
HiH1H 3H2H3

Maintenant, j'essaie d'adapter les données D à chacun des 3 modèles, chaque modèle a ses paramètres, notés wi pour Hi .

En utilisant ML, j'aurai une estimation ponctuelle des paramètres du modèle w , et H1 est trop simple et sous-adaptera toujours les données, tandis que H3 est trop complexe et surajustera les données, seul H2 s'adaptera bien aux données.

Mes questions sont,

1) Le modèle H3 surdimensionnera les données, mais je ne pense pas que ce soit le problème du ML, mais le problème du modèle en soi. Parce que, en utilisant ML pour H1,H2 n'entraîne pas de sur-ajustement. Ai-je raison?

2) Comparé au bayésien, le ML présente certains inconvénients, car il donne simplement l'estimation ponctuelle des paramètres du modèle w , et il est trop sûr de lui. Alors que le bayésien ne repose pas uniquement sur la valeur la plus probable du paramètre, mais sur toutes les valeurs possibles des paramètres compte tenu des données observées D , non?

3) Pourquoi le bayésien peut-il éviter ou diminuer le sur-ajustement? Si je comprends bien, nous pouvons utiliser le bayésien pour la comparaison de modèles, c'est-à-dire, étant donné les données D , nous pourrions trouver la probabilité marginale (ou les preuves de modèle) pour chaque modèle considéré, puis choisir celle avec la probabilité marginale la plus élevée, à droite ? Si oui, pourquoi?

Avocat
la source

Réponses:

19

L'optimisation est la racine de tout mal dans les statistiques. Chaque fois que vous faites des choix concernant votre modèle en optimisant un critère approprié évalué sur un échantillon fini de données, vous courez le risque de sur-ajuster le critère, c'est-à-dire de réduire la statistique au-delà du point où des améliorations des performances de généralisation sont obtenues et la réduction est plutôt acquise en exploitant les particularités de l'échantillon de données, par exemple le bruit). La raison pour laquelle la méthode bayésienne fonctionne mieux est que vous n'optimisez rien, mais que vous marginalisez (intégrez) plutôt tous les choix possibles. Le problème réside alors dans le choix des croyances antérieures concernant le modèle, donc un problème a disparu, mais un autre apparaît à sa place.1


1 Cela inclut la maximisation des preuves (vraisemblance marginale) dans un cadre bayésien. Pour un exemple de cela, voir les résultats des classificateurs du processus gaussien dans mon article, où l'optimisation de la vraisemblance marginale aggrave le modèle si vous avez trop d'hyper-paramètres (la sélection des notes selon la vraisemblance marginale aura tendance à favoriser les modèles avec beaucoup d'hyper -paramètres résultant de cette forme de sur-ajustement).

GC Cawley et NLC Talbot, Sur-ajustement dans la sélection des modèles et biais de sélection subséquent dans l'évaluation des performances, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, juillet 2010. ( pdf )

Dikran Marsupial
la source
+1, merci beaucoup, je vais lire votre article et voir si j'ai d'autres questions, ;-)
avocat
1
Juste pour noter ici que l'optimisation peut généralement être considérée comme une intégration approximative - la méthode Laplace en est un exemple. L'optimisation échoue généralement lorsqu'elle n'est pas une bonne approximation de l'intégration - d'où la raison pour laquelle REML est généralement meilleur que ML.
Probabislogic
@probabilityislogic, je ne suis pas sûr de comprendre, ML est un peu comme MAP, aucune intégration n'est effectuée. Utiliser l'approximation de Laplace (de la manière dont je l'ai vue), c'est optimiser dans le sens où vous optimisez une approximation de la fonction que vous souhaitez intégrer et l'intégrer à la place, mais l'intégration est toujours en cours.
Dikran Marsupial
1
@dikran marsupial - Peut-être une meilleure façon de l'expliquer est que l'intégration est souvent bien approximée en estimant un paramètre par ML et en contraignant ce paramètre à être égal à son MLE. L'approximation de Laplace fournit un "facteur de correction" à cette intuition - de la même manière que REML.
probabilités
@probabilityislogic merci pour la réponse, je vais y réfléchir!
Dikran Marsupial
7

En règle générale, si vous utilisez des modèles de régression de type «moindres carrés», il n'y a vraiment pas beaucoup de différence entre bayes et ML, à moins que vous n'utilisiez une information préalable pour les paramètres de régression. En réponse aux détails:

1) pas nécessairement les données - uniquement lorsque vous avez près de 9 observations. Si vous aviez 100 observations, la plupart des coefficients soi-disant «surajustés» seront proches de zéro. De plus, entraînerait presque toujours un "sous-ajustement" - car il y aurait une courbure claire manquéeH 1H9H1

2) Ceci n'est pas vrai pour les expansions polynomiales "linéaires" ("linéaire" signifiant linéaire par rapport aux paramètres, pas ). Les estimations de la LM pour les moindres carrés sont identiques aux moyennes postérieures sous des a priori non informatifs ou de grands échantillons. En fait, vous pouvez montrer que les estimations de ML peuvent être considérées comme des moyens postérieurs "asymptotiques" dans une variété de modèles.x

3) L'approche bayésienne peut éviter le surapprentissage uniquement pour les prieurs appropriés. Cela fonctionne de manière similaire aux termes de pénalité que vous voyez dans certains algorithmes d'ajustement. Par exemple, pénalité L2 = avant normal, pénalité L1 = avant laplace.

probabilitéislogique
la source
voté, et vous avez raison de dire qu'avec plus d'observations à portée de main, ne s'adaptera pas. Mais ai-je raison d'affirmer que le sur- ajustement est un problème de choix du mauvais modèle, pas du ML en soi ? Et nous pouvons utiliser le bayésien dans la sélection des modèles, mais nous ne pouvons pas le faire avec ML, n'est-ce pas? H9
avocat
Certes, tous les choix de H ici seront le mauvais modèle, autre que . Le problème est l'erreur d'estimation des paramètres du modèle, qui comporte à la fois des composantes de biais et de variance. Si vous choisissez le modèle en utilisant un critère bayésien, vous pouvez toujours le sur-ajuster également (j'ajouterai une référence pour le soutenir dans ma réponse). H
Dikran Marsupial
@loganecolss - Je pense que ici serait plus proche de la vérité que les autres. Le surajustement est plus étroitement lié à la taille de l'échantillon et au type de structure de modèle qu'il peut fournir (parfois appelé modèle «sûr»). H9
Probabislogic
4

Fondamentalement, ce que vous faites en augmentant les degrés de vos polynômes augmente le nombre de paramètres ou degrés de liberté de votre espace modèle, c'est-à-dire. sa dimension. Plus vous ajoutez de paramètres, plus le modèle peut s'adapter facilement aux données d'entraînement. Mais cela dépend aussi fortement du nombre d'observations. Vos modèles et pourraient tout aussi bien surdimensionner les données d'entraînement si le nombre d'observations est faible, tout comme peut ne pas du tout s'adapter si le nombre d'instances d'entraînement est suffisamment important.H 2 H 3H1H2H3

Par exemple, exagérons grossièrement et supposons que l'on ne vous donne que exemples de formation, alors même surajustera toujours vos données.H 12H1

L'avantage d'imposer des priors par exemple par régularisation est que les paramètres sont réduits à zéro ou à une autre valeur prédéfinie (vous pouvez même ajouter des paramètres pour "lier" les coefficients ensemble si vous le souhaitez), et donc vous contraignez implicitement les paramètres et réduisant la "liberté" de votre modèle à sur-équiper. Par exemple, l'utilisation du lasso (c.-à-d. La régularisation ou l'équivalent d'un Laplace antérieur) et le réglage du paramètre correspondant (en utilisant la validation croisée 10x par exemple) supprimera automatiquement les paramètres excédentaires. L'interprétation bayésienne est similaire: en imposant des a priori, vous contraignez vos paramètres à une valeur plus probable, déduite des données globales.l1

Youloush
la source
Une hypothèse simple (par exemple h1, h2) avec des échantillons d'apprentissage insuffisants serait un exemple de sous-ajustement (pour cv) et non de sur-ajustement en raison du biais du modèle sur les quelques exemples d'apprentissage donnés.
yekta