Dans l'entrée Wikipedia pour le critère d'information Akaike , nous lisons sous Comparaison avec BIC (critère d'information bayésien) que
... AIC / AICc a des avantages théoriques sur BIC ... AIC / AICc est dérivé des principes de l'information; BIC n'est pas ... BIC a un a priori de 1 / R (où R est le nombre de modèles candidats), ce qui n'est "pas raisonnable" ... AICc a tendance à avoir des avantages pratiques / de performance par rapport à BIC ... AIC est asymptotiquement optimale ... BIC n'est pas asymptotiquement optimale ... la vitesse à laquelle AIC converge vers l'optimum est ... la meilleure possible.
Dans la section de discussion AIC , il y a de nombreux commentaires sur la présentation biaisée de la comparaison avec la section BIC. Un contributeur frustré a protesté contre le fait que l'article dans son intégralité "ressemble à une publicité pour les cigarettes".
Dans d'autres sources, par exemple cette annexe de thèse, la teneur des revendications d'AIC semble plus réaliste. Ainsi, en tant que service à la communauté, nous demandons:
Q: Y a-t-il des circonstances dans lesquelles BIC est utile et AIC ne l'est pas?
Il n'est pas significatif de se demander si AIC est meilleur que BIC. Même si ces deux critères de sélection de modèles différents semblent superficiellement similaires, ils ont tous été conçus pour résoudre des problèmes fondamentalement différents. Vous devez donc choisir le critère de sélection du modèle qui convient au problème que vous rencontrez.
L'AIC est une formule qui estime la valeur attendue du double du logarithme négatif des données de test en utilisant un modèle de probabilité correctement spécifié dont les paramètres ont été obtenus en ajustant le modèle aux données d'apprentissage. C'est-à-dire que l'AIC estime l'erreur de validation croisée attendue en utilisant une erreur de vraisemblance logarithmique négative. Autrement dit, Où sont des données de test, est estimé en utilisant des données d'apprentissage, et désigne l'opérateur d'attente par rapport au processus de génération de données iid qui a généré à la fois les données d'apprentissage et de test.AIC≈E{−2log∏ni=1p(xi|θ^n)} x1,…,xn θ^n E{}
BIC d'autre part n'est pas conçu pour estimer l'erreur de validation croisée. Le BIC estime le double du logarithme négatif de la probabilité des données observées compte tenu du modèle. Cette vraisemblance est aussi appelée probabilité marginale, elle est calculée en intégrant la fonction de vraisemblance pondérée par un paramètre antérieur sur l'espace des paramètres. C'est-à-dire .p(θ) BIC≈−2log∫[∏ni=1p(xi|θ)]p(θ)dθ
la source