Je suis juste tombé sur "critère d'information Akaike", et j'ai remarqué cette grande quantité de littérature sur la sélection des modèles (aussi des choses comme BIC semblent exister).
Pourquoi les méthodes modernes d'apprentissage automatique ne profitent-elles pas de ces critères de sélection des modèles BIC et AIC?
Réponses:
AIC et BIC sont utilisés, par exemple dans la régression pas à pas. Ils font en fait partie d'une classe plus large d '"heuristiques", qui sont également utilisées. Par exemple, le DIC (Deviance Information Criterion) est souvent utilisé dans la sélection du modèle bayésien.
Cependant, ce sont essentiellement des "heuristiques". Bien qu'il puisse être démontré que l'AIC et le BIC convergent de manière asymptotique vers des approches de validation croisée (je pense que l'AIC va vers un CV avec abandon et BIC vers une autre approche, mais je ne suis pas sûr), ils sont connus pour sous-pénaliser et sur-pénaliser respectivement. C'est-à-dire qu'en utilisant AIC, vous obtiendrez souvent un modèle, ce qui est plus compliqué qu'il ne devrait l'être, alors qu'avec BIC, vous obtenez souvent un modèle trop simpliste.
Étant donné que les deux sont liés au CV, le CV est souvent un meilleur choix, qui ne souffre pas de ces problèmes.
Enfin, il y a la question du nombre de paramètres requis pour BIC et AIC. Avec des approximateurs de fonctions générales (par exemple KNN) sur des entrées à valeur réelle, il est possible de "masquer" des paramètres, c'est-à-dire de construire un nombre réel qui contient les mêmes informations que deux nombres réels (pensez par exemple à croiser les chiffres). Dans ce cas, quel est le nombre réel de paramètres? D'un autre côté, avec des modèles plus compliqués, vous pouvez avoir des contraintes sur vos paramètres, disons que vous ne pouvez ajuster que des paramètres tels queθ1>θ2 (voir par exemple ici ). Ou vous pouvez ne pas être identifiable, auquel cas plusieurs valeurs des paramètres donnent en fait le même modèle. Dans tous ces cas, le simple comptage des paramètres ne donne pas une estimation appropriée.
Étant donné que de nombreux algorithmes d'apprentissage automatique contemporains présentent ces propriétés (c.-à-d. Approximation universelle, nombre de paramètres peu clair, non-identifiabilité), l'AIC et le BIC sont moins utiles pour ces modèles qu'ils ne le semblent à première vue.
MODIFIER :
Quelques points supplémentaires qui pourraient être clarifiés:
la source