Dans le livre de Bishop's PRML, il dit que le sur-ajustement est un problème avec l'estimation de maximum de vraisemblance (MLE), et que le bayésien peut l'éviter.
Mais je pense que le sur-ajustement est un problème plus lié à la sélection du modèle, pas à la méthode utilisée pour faire l'estimation des paramètres. Autrement dit, supposons que j'ai un ensemble de données , qui est généré via , maintenant je pourrais choisir différents modèles pour ajuster les données et découvrir Lequel est le meilleur. Et les modèles considérés sont des modèles polynomiaux avec des ordres différents, est d'ordre 1, H_2 est d'ordre 2, H_3 est d'ordre 9.f ( x ) = s i n ( x ) ,H i H 1
Maintenant, j'essaie d'adapter les données à chacun des 3 modèles, chaque modèle a ses paramètres, notés pour .
En utilisant ML, j'aurai une estimation ponctuelle des paramètres du modèle , et est trop simple et sous-adaptera toujours les données, tandis que est trop complexe et surajustera les données, seul s'adaptera bien aux données.
Mes questions sont,
1) Le modèle surdimensionnera les données, mais je ne pense pas que ce soit le problème du ML, mais le problème du modèle en soi. Parce que, en utilisant ML pour n'entraîne pas de sur-ajustement. Ai-je raison?
2) Comparé au bayésien, le ML présente certains inconvénients, car il donne simplement l'estimation ponctuelle des paramètres du modèle , et il est trop sûr de lui. Alors que le bayésien ne repose pas uniquement sur la valeur la plus probable du paramètre, mais sur toutes les valeurs possibles des paramètres compte tenu des données observées , non?
3) Pourquoi le bayésien peut-il éviter ou diminuer le sur-ajustement? Si je comprends bien, nous pouvons utiliser le bayésien pour la comparaison de modèles, c'est-à-dire, étant donné les données , nous pourrions trouver la probabilité marginale (ou les preuves de modèle) pour chaque modèle considéré, puis choisir celle avec la probabilité marginale la plus élevée, à droite ? Si oui, pourquoi?
En règle générale, si vous utilisez des modèles de régression de type «moindres carrés», il n'y a vraiment pas beaucoup de différence entre bayes et ML, à moins que vous n'utilisiez une information préalable pour les paramètres de régression. En réponse aux détails:
1) pas nécessairement les données - uniquement lorsque vous avez près de 9 observations. Si vous aviez 100 observations, la plupart des coefficients soi-disant «surajustés» seront proches de zéro. De plus, entraînerait presque toujours un "sous-ajustement" - car il y aurait une courbure claire manquéeH 1H9 H1
2) Ceci n'est pas vrai pour les expansions polynomiales "linéaires" ("linéaire" signifiant linéaire par rapport aux paramètres, pas ). Les estimations de la LM pour les moindres carrés sont identiques aux moyennes postérieures sous des a priori non informatifs ou de grands échantillons. En fait, vous pouvez montrer que les estimations de ML peuvent être considérées comme des moyens postérieurs "asymptotiques" dans une variété de modèles.x
3) L'approche bayésienne peut éviter le surapprentissage uniquement pour les prieurs appropriés. Cela fonctionne de manière similaire aux termes de pénalité que vous voyez dans certains algorithmes d'ajustement. Par exemple, pénalité L2 = avant normal, pénalité L1 = avant laplace.
la source
Fondamentalement, ce que vous faites en augmentant les degrés de vos polynômes augmente le nombre de paramètres ou degrés de liberté de votre espace modèle, c'est-à-dire. sa dimension. Plus vous ajoutez de paramètres, plus le modèle peut s'adapter facilement aux données d'entraînement. Mais cela dépend aussi fortement du nombre d'observations. Vos modèles et pourraient tout aussi bien surdimensionner les données d'entraînement si le nombre d'observations est faible, tout comme peut ne pas du tout s'adapter si le nombre d'instances d'entraînement est suffisamment important.H 2 H 3H1 H2 H3
Par exemple, exagérons grossièrement et supposons que l'on ne vous donne que exemples de formation, alors même surajustera toujours vos données.H 12 H1
L'avantage d'imposer des priors par exemple par régularisation est que les paramètres sont réduits à zéro ou à une autre valeur prédéfinie (vous pouvez même ajouter des paramètres pour "lier" les coefficients ensemble si vous le souhaitez), et donc vous contraignez implicitement les paramètres et réduisant la "liberté" de votre modèle à sur-équiper. Par exemple, l'utilisation du lasso (c.-à-d. La régularisation ou l'équivalent d'un Laplace antérieur) et le réglage du paramètre correspondant (en utilisant la validation croisée 10x par exemple) supprimera automatiquement les paramètres excédentaires. L'interprétation bayésienne est similaire: en imposant des a priori, vous contraignez vos paramètres à une valeur plus probable, déduite des données globales.l1
la source