L'AIC et le BIC sont deux méthodes d'évaluation de l'adéquation du modèle pénalisées pour le nombre de paramètres estimés. Si je comprends bien, BIC pénalise davantage les modèles pour les paramètres libres que l’AIC. Au-delà d'une préférence basée sur la rigueur des critères, existe-t-il d'autres raisons de préférer AIC à BIC ou inversement?
modeling
aic
cross-validation
bic
model-selection
russellpierce
la source
la source
Réponses:
Votre question implique que AIC et BIC essaient de répondre à la même question, ce qui n’est pas vrai. L'AIC tente de sélectionner le modèle qui décrit le mieux une réalité inconnue et de grande dimension. Cela signifie que la réalité ne fait jamais partie de l'ensemble des modèles candidats envisagés. Au contraire, BIC essaie de trouver le modèle VRAI parmi l'ensemble des candidats. Je trouve assez étrange de supposer que la réalité est instanciée dans l’un des modèles que les chercheurs ont construits tout au long du processus. C'est un réel problème pour BIC.
Néanmoins, de nombreux chercheurs déclarent que BIC est meilleur que AIC, en utilisant les simulations de récupération de modèle comme argument. Ces simulations consistent à générer des données à partir des modèles A et B, puis à ajuster les deux jeux de données avec les deux modèles. La suralimentation survient lorsque le mauvais modèle correspond mieux aux données que le générateur. Le but de ces simulations est de voir dans quelle mesure AIC et BIC corrigent ces overfits. Habituellement, les résultats montrent que l’AIC est trop libérale et préfère toujours un modèle plus complexe et erroné à un modèle plus simple et plus vrai. À première vue, ces simulations semblent être de très bons arguments, mais le problème est qu’elles n’ont pas de sens pour AIC. Comme je l'ai dit précédemment, l'AIC ne considère pas que l'un des modèles candidats testés est réellement vrai. Selon AIC, tous les modèles sont des approximations de la réalité, et la réalité ne devrait jamais avoir une faible dimensionnalité. Au moins inférieur à certains des modèles candidats.
Ma recommandation est d'utiliser à la fois AIC et BIC. La plupart du temps, ils s'entendent sur le modèle préféré, mais ne le signalent pas.
Si vous n'êtes pas satisfait à la fois d'AIC et de BIC et que vous avez du temps libre pour investir, recherchez Minimum Description Length (MDL), une approche totalement différente qui surmonte les limites d'AIC et de BIC. La LDM comprend plusieurs mesures, telles que le maximum de vraisemblance normalisé ou l’approximation de Fisher Information. Le problème avec MDL est qu’il est mathématiquement exigeant et / ou gourmand en calculs.
Néanmoins, si vous souhaitez vous en tenir à des solutions simples, un moyen intéressant d'évaluer la flexibilité d'un modèle (en particulier lorsque le nombre de paramètres est égal, ce qui rend AIC et BIC inutiles) consiste à utiliser Parametric Bootstrap, qui est assez facile à implémenter. Voici un lien vers un article à ce sujet.
Certaines personnes ici préconisent l’utilisation de la validation croisée. Personnellement, je l’ai utilisé et je n’ai rien contre, mais le problème, c’est que le choix entre la règle de découpage d’échantillon (let-one-out, K-fold, etc.) est sans principe.
la source
Bien que l'AIC et le BIC soient tous deux fondés sur l'estimation du maximum de vraisemblance et pénalisent les paramètres libres dans le but de lutter contre la suralimentation, ils le font de manière à entraîner un comportement très différent. Examinons une version couramment présentée des méthodes (dont les résultats stipulent des erreurs normalement distribuées et d’autres hypothèses qui se comportent bien):
et
où:
Le meilleur modèle du groupe comparé est celui qui minimise ces scores, dans les deux cas. Clairement, l'AIC ne dépend pas directement de la taille de l'échantillon. De plus, de manière générale, AIC présente le risque de sur-adaptation, alors que BIC présente le risque de sous-adaptation, simplement en raison de la manière dont ils pénalisent les paramètres libres (2 * k dans AIC; ln (N) * k dans BIC). Diachroniquement, à mesure que les données sont introduites et que les scores sont recalculés, à N relativement bas (7 et moins), le BIC est plus tolérant des paramètres libres que l'AIC, mais moins tolérant à N plus élevé (puisque le logarithme naturel de N en dépasse 2).
De plus, l'AIC vise à trouver le meilleur modèle d'approximation au processus de génération de données inconnues (en minimisant la divergence estimée de KL ). En tant que tel, il ne parvient pas à faire converger la probabilité vers le modèle réel (en supposant qu’un est présent dans le groupe évalué), alors que BIC converge lorsque N tend vers l’infini.
Donc, comme dans beaucoup de questions méthodologiques, ce qui doit être préféré dépend de ce que vous essayez de faire, quelles autres méthodes sont disponibles et si l'une des caractéristiques décrites (convergence, tolérance relative pour les paramètres libres, minimisant la divergence de KL attendue) ), parlez de vos objectifs.
la source
Mon explication rapide est
la source
D'après mon expérience, le BIC entraîne de graves problèmes de sous-aménagement et l'AIC fonctionne généralement bien lorsque l'objectif est de maximiser la discrimination prédictive.
la source
Une "dérivation" informative et accessible de AIC et BIC par Brian Ripley peut être trouvée ici: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley fournit quelques remarques sur les hypothèses sous-jacentes aux résultats mathématiques. Contrairement à ce qu'indiquent certaines des autres réponses, Ripley souligne que l'AIC repose sur l'hypothèse que le modèle est vrai. Si le modèle n'est pas vrai, un calcul général révélera que le "nombre de paramètres" doit être remplacé par une quantité plus complexe. Certaines références sont données dans les diapositives Ripleys. Notez cependant que pour la régression linéaire (à proprement parler avec une variance connue), la quantité plus compliquée se simplifie en général pour être égale au nombre de paramètres.
la source
En effet, la seule différence est que BIC est AIC étendu pour prendre en compte le nombre d'objets (échantillons). Je dirais que bien que les deux soient assez faibles (par rapport à la validation croisée, par exemple), il est préférable d’utiliser AIC, plutôt que de plus en plus de gens connaissent l’abréviation - en effet, je n’ai jamais vu de papier ou de programme dans être utilisé (j'avoue tout de même que je suis partial pour les problèmes où ces critères ne fonctionnent tout simplement pas)
Edit: AIC et BIC sont équivalents à la validation croisée si deux hypothèses importantes sont prises en compte - lorsqu'elles sont définies, donc lorsque le modèle est à vraisemblance et que vous ne vous intéressez qu'à la performance du modèle sur des données d'apprentissage. En cas de regroupement de certaines données dans une sorte de consensus, elles sont parfaitement correctes.
Dans le cas de la création d’une machine de prévision pour un problème réel, le premier est faux, car votre jeu d’entraînement ne représente qu’une petite quantité d’informations sur le problème que vous rencontrez, vous ne pouvez donc pas optimiser votre modèle; la seconde est fausse, car vous vous attendez à ce que votre modèle gère les nouvelles données pour lesquelles vous ne pouvez même pas vous attendre à ce que l'ensemble de formation soit représentatif. Et à cette fin, le CV a été inventé; simuler le comportement du modèle face à des données indépendantes. En cas de sélection de modèle, CV vous donne non seulement la qualité approximative, mais également une distribution d'approximation de la qualité. Il présente donc un tel avantage: "Je ne sais pas, quelles que soient les nouvelles données à venir, elles peuvent être mieux."
la source
Comme vous l'avez mentionné, AIC et BIC sont des méthodes pour pénaliser les modèles pour avoir plus de variables de régression. Une fonction de pénalité est utilisée dans ces méthodes, en fonction du nombre de paramètres du modèle.
Lors de l'application de AIC, la fonction de pénalité est z (p) = 2 p .
Lorsque vous appliquez BIC, la fonction de pénalité est z (p) = p ln ( n ), ce qui permet d’interpréter la pénalité comme découlant d’informations antérieures (d’où le nom Bayesian Information Criterion).
Lorsque n est grand, les deux modèles produiront des résultats très différents. Ensuite, le code BIC applique une pénalité beaucoup plus lourde aux modèles complexes, ce qui aboutira à des modèles plus simples que le modèle AIC. Cependant, comme indiqué dans Wikipedia sur BIC :
la source
D'après ce que je peux dire, il n'y a pas beaucoup de différence entre AIC et BIC. Ce sont à la fois des approximations pratiques sur le plan mathématique permettant de comparer efficacement les modèles. S'ils vous donnent différents "meilleurs" modèles, cela signifie probablement que vous avez une grande incertitude liée aux modèles, qu'il est plus important de craindre que de savoir si vous devez utiliser AIC ou BIC. Personnellement, j’aime mieux BIC, car il demande plus (moins) à un modèle s’il dispose de plus de données (moins) pour s’adapter à ses paramètres - un peu comme un enseignant qui demande un niveau de performance plus élevé (moins élevé) si son élève a plus (moins ) le temps d'apprendre sur le sujet. Pour moi, cela semble être la chose intuitive à faire. Mais je suis certain qu'il existe également des arguments tout aussi intuitifs et convaincants pour AIC, étant donné sa forme simple.
Maintenant, chaque fois que vous faites une approximation, il y aura sûrement des conditions lorsque ces approximations seront nulles. Cela se vérifie certainement pour AIC, où il existe de nombreux "ajustements" (AICc) pour tenir compte de certaines conditions qui rendent l’approximation initiale mauvaise. Ceci est également présent pour BIC, car il existe diverses autres méthodes plus exactes (mais toujours efficaces), telles que les approximations de Full Laplace à des mélanges de g-priors de Zellner (BIC est une approximation de la méthode d'approximation de Laplace pour les intégrales).
Un endroit où ils sont tous les deux fous est quand vous avez des informations préalables substantielles sur les paramètres dans un modèle donné. AIC et BIC pénalisent inutilement les modèles dans lesquels les paramètres sont partiellement connus par rapport aux modèles nécessitant une estimation des paramètres à partir des données.
Et ensuite, continuez d’affecter les mêmes modèles de probabilité (mêmes paramètres, mêmes données, mêmes approximations, etc.), je vais obtenir le même ensemble de valeurs BIC. Ce n'est qu'en attachant une signification unique à la lettre logique "M" que l'on se laisse entraîner dans des questions non pertinentes sur "le vrai modèle" (échos de "la vraie religion"). La seule chose qui "définit" M, ce sont les équations mathématiques qui l'utilisent dans leurs calculs - et il ne s'agit presque jamais d'une définition unique. Je pourrais également formuler une proposition de prédiction à propos de M ("le ième modèle donnera les meilleures prédictions"). Personnellement, je ne vois pas en quoi cela changerait les probabilités, et donc quel sera le bon ou le mauvais BIC (l'AIC aussi - bien que l'AIC soit basé sur une dérivation différente)
Et d' ailleurs, ce qui ne va pas avec l'énoncé Si le vrai modèle est dans l'ensemble je considère, alors il y a une probabilité de 57% qu'il est le modèle B . Cela me semble assez raisonnable, ou vous pourriez choisir une version plus "soft": il existe une probabilité de 57% que le modèle B soit le meilleur de l'ensemble considéré
Un dernier commentaire: je pense que vous trouverez autant d’opinions sur AIC / BIC qu’il ya de gens qui connaissent.
la source
L'AIC devrait rarement être utilisé, car il n'est valable que de manière asymptotique. Il est presque toujours préférable d'utiliser AICc (AIC avec c orrection pour la taille de l' échantillon fini). AIC a tendance à sur-paramétrer: ce problème est grandement atténué avec AICc. La principale exception à l'utilisation de l'AICc est lorsque les distributions sous-jacentes sont fortement leptokuriques. Pour plus d'informations à ce sujet, voir l'ouvrage Sélection de modèles de Burnham & Anderson.
la source
AIC et BIC sont des critères d’information permettant de comparer des modèles. Chacun tente d'équilibrer l'ajustement du modèle et la parcimonie et chacun pénalise différemment le nombre de paramètres.
Je n'ai pas entendu parler de KIC.
la source
Très brièvement:
Notez que l'erreur LOOCV peut également être calculée analytiquement à partir des résidus et de la diagonale de la matrice chapeau , sans avoir à effectuer de validation croisée. Ce serait toujours une alternative à l'AIC sous la forme d'une approximation asymptotique de l'erreur LOOCV.
Références
Stone M. (1977) Equivalence asymptotique du choix du modèle par validation croisée et critère d'Akaike. Journal de la Société royale de statistique, série B. 39, 44–7.
Shao J. (1997) Une théorie asymptotique pour la sélection de modèles linéaires. Statistica Sinica 7, 221-242.
la source