Y a-t-il une raison de préférer l'AIC ou le BIC à l'autre?

222

L'AIC et le BIC sont deux méthodes d'évaluation de l'adéquation du modèle pénalisées pour le nombre de paramètres estimés. Si je comprends bien, BIC pénalise davantage les modèles pour les paramètres libres que l’AIC. Au-delà d'une préférence basée sur la rigueur des critères, existe-t-il d'autres raisons de préférer AIC à BIC ou inversement?

russellpierce
la source
1
Je pense qu’il est plus approprié d’appeler cette discussion «sélection de caractéristiques» ou «sélection de covariable». Pour moi, la sélection du modèle est beaucoup plus large et implique la spécification de la distribution des erreurs, la forme de la fonction de lien et la forme des covariables. Lorsque nous parlons d'AIC / BIC, nous sommes généralement dans une situation où tous les aspects de la construction de modèles sont fixes, à l'exception du choix des covariables.
6
La sélection des covariables spécifiques à inclure dans un modèle est généralement définie par le terme sélection de modèle. Il existe plusieurs livres avec une sélection de modèle dans le titre qui déterminent principalement les covariables / paramètres de modèle à inclure dans le modèle.
Michael Chernick
Je ne sais pas si votre question s'applique spécifiquement aux phylogénie (bio - informatique), mais le cas échéant, cette étude peut donner quelques réflexions sur cet aspect: ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin
La question fusionnée concerne également KIC . Veuillez mettre à jour le texte de la question et donner une définition de KIC, préf. Avec lien.
smci
1
@smci J'ai ajouté stats.stackexchange.com/questions/383923/… pour permettre aux utilisateurs de se plonger dans les questions relatives à la KIC, le cas échéant.
russellpierce

Réponses:

179

Votre question implique que AIC et BIC essaient de répondre à la même question, ce qui n’est pas vrai. L'AIC tente de sélectionner le modèle qui décrit le mieux une réalité inconnue et de grande dimension. Cela signifie que la réalité ne fait jamais partie de l'ensemble des modèles candidats envisagés. Au contraire, BIC essaie de trouver le modèle VRAI parmi l'ensemble des candidats. Je trouve assez étrange de supposer que la réalité est instanciée dans l’un des modèles que les chercheurs ont construits tout au long du processus. C'est un réel problème pour BIC.

Néanmoins, de nombreux chercheurs déclarent que BIC est meilleur que AIC, en utilisant les simulations de récupération de modèle comme argument. Ces simulations consistent à générer des données à partir des modèles A et B, puis à ajuster les deux jeux de données avec les deux modèles. La suralimentation survient lorsque le mauvais modèle correspond mieux aux données que le générateur. Le but de ces simulations est de voir dans quelle mesure AIC et BIC corrigent ces overfits. Habituellement, les résultats montrent que l’AIC est trop libérale et préfère toujours un modèle plus complexe et erroné à un modèle plus simple et plus vrai. À première vue, ces simulations semblent être de très bons arguments, mais le problème est qu’elles n’ont pas de sens pour AIC. Comme je l'ai dit précédemment, l'AIC ne considère pas que l'un des modèles candidats testés est réellement vrai. Selon AIC, tous les modèles sont des approximations de la réalité, et la réalité ne devrait jamais avoir une faible dimensionnalité. Au moins inférieur à certains des modèles candidats.

Ma recommandation est d'utiliser à la fois AIC et BIC. La plupart du temps, ils s'entendent sur le modèle préféré, mais ne le signalent pas.

Si vous n'êtes pas satisfait à la fois d'AIC et de BIC et que vous avez du temps libre pour investir, recherchez Minimum Description Length (MDL), une approche totalement différente qui surmonte les limites d'AIC et de BIC. La LDM comprend plusieurs mesures, telles que le maximum de vraisemblance normalisé ou l’approximation de Fisher Information. Le problème avec MDL est qu’il est mathématiquement exigeant et / ou gourmand en calculs.

Néanmoins, si vous souhaitez vous en tenir à des solutions simples, un moyen intéressant d'évaluer la flexibilité d'un modèle (en particulier lorsque le nombre de paramètres est égal, ce qui rend AIC et BIC inutiles) consiste à utiliser Parametric Bootstrap, qui est assez facile à implémenter. Voici un lien vers un article à ce sujet.

Certaines personnes ici préconisent l’utilisation de la validation croisée. Personnellement, je l’ai utilisé et je n’ai rien contre, mais le problème, c’est que le choix entre la règle de découpage d’échantillon (let-one-out, K-fold, etc.) est sans principe.

Dave Kellen
la source
7
La différence peut être vue uniquement du point de vue mathématique - BIC a été dérivé comme un développement asymptotique de log P (données) où les vrais paramètres de modèle sont échantillonnés selon une méthode arbitraire nulle part auparavant, AIC a été dérivé de manière similaire avec de vrais paramètres maintenus fixes
Yaroslav Bulatov
4
Vous avez déclaré que "de nombreux chercheurs disent que BIC est meilleur que AIC, en utilisant comme argument les simulations de récupération de modèle. Ces simulations consistent à générer des données à partir des modèles A et B, puis à adapter les deux jeux de données avec les deux modèles." Seriez-vous assez aimable pour indiquer quelques références. Je suis curieux à leur sujet! :)
deps_stats
2
Je ne crois pas les déclarations dans ce post.
user9352
16
(-1) Excellente explication, mais je voudrais contester une affirmation. @ Dave Kellen Pourriez-vous s'il vous plaît donner une référence à l'endroit où l'idée que le modèle TRUE doit être dans l'ensemble pour BIC? J'aimerais approfondir cette question car, dans ce livre, les auteurs fournissent une preuve convaincante que ce n'est pas le cas.
gui11aume
2
Excellente réponse mais je suis fermement en désaccord avec l'affirmation "la réalité ne devrait jamais avoir une faible dimensionnalité". Cela dépend de la "science" à laquelle vous appliquez vos modèles
David
76

Bien que l'AIC et le BIC soient tous deux fondés sur l'estimation du maximum de vraisemblance et pénalisent les paramètres libres dans le but de lutter contre la suralimentation, ils le font de manière à entraîner un comportement très différent. Examinons une version couramment présentée des méthodes (dont les résultats stipulent des erreurs normalement distribuées et d’autres hypothèses qui se comportent bien):

  • AIC = -2 * ln (probabilité) + 2 * k,

et

  • BIC = -2 * ln (vraisemblance) + ln (N) * k,

où:

  • k = degrés de liberté du modèle
  • N = nombre d'observations

Le meilleur modèle du groupe comparé est celui qui minimise ces scores, dans les deux cas. Clairement, l'AIC ne dépend pas directement de la taille de l'échantillon. De plus, de manière générale, AIC présente le risque de sur-adaptation, alors que BIC présente le risque de sous-adaptation, simplement en raison de la manière dont ils pénalisent les paramètres libres (2 * k dans AIC; ln (N) * k dans BIC). Diachroniquement, à mesure que les données sont introduites et que les scores sont recalculés, à N relativement bas (7 et moins), le BIC est plus tolérant des paramètres libres que l'AIC, mais moins tolérant à N plus élevé (puisque le logarithme naturel de N en dépasse 2).

De plus, l'AIC vise à trouver le meilleur modèle d'approximation au processus de génération de données inconnues (en minimisant la divergence estimée de KL ). En tant que tel, il ne parvient pas à faire converger la probabilité vers le modèle réel (en supposant qu’un est présent dans le groupe évalué), alors que BIC converge lorsque N tend vers l’infini.

Donc, comme dans beaucoup de questions méthodologiques, ce qui doit être préféré dépend de ce que vous essayez de faire, quelles autres méthodes sont disponibles et si l'une des caractéristiques décrites (convergence, tolérance relative pour les paramètres libres, minimisant la divergence de KL attendue) ), parlez de vos objectifs.

John L. Taylor
la source
8
|t|>2|t|>log(n)
2
Bonne réponse, +1. J'aime particulièrement la mise en garde de savoir si le vrai modèle est réellement présent dans le groupe évalué. Je dirais que "le vrai modèle" n’est jamais présent. (Box & Draper a déclaré que "tous les modèles sont faux, mais que certains sont utiles", et Burnham & Anderson appellent cela des "tailles d'effet décroissantes".) C'est pourquoi je ne suis pas impressionné par la convergence du BIC sous des hypothèses irréalistes et davantage par l'objectif de l'AIC à la meilleure approximation parmi les modèles que nous examinons réellement.
Stephan Kolassa
68

Mon explication rapide est

  • L'AIC est préférable pour la prédiction car il est asymptotiquement équivalent à la validation croisée.
  • BIC est la meilleure solution, car elle permet une estimation cohérente du processus de génération de données sous-jacent.
Rob Hyndman
la source
AIC est équivalent à la validation croisée K-fold, BIC est équivalent à la validation croisée leve-one-out. Cependant, les deux théorèmes ne valent que dans le cas d'une régression linéaire.
5
mbq, c'est AIC / LOO (pas LKO ou K-fold) et je ne pense pas que la preuve dans Stone 1977 repose sur des modèles linéaires. Je ne connais pas les détails du résultat du BIC.
ars
11
ars est correct. C'est AIC = LOO et BIC = K-fold où K est une fonction compliquée de la taille de l'échantillon.
Rob Hyndman le
Félicitations, vous m'avez eu; J'étais pressé d'écrire cela et j'ai donc commis cette erreur. C'est évidemment ce que Rob a écrit. Neverthelss, il date de Shao 1995, où l’hypothèse était que le modèle était linéaire. J'analyserai Stone, mais je pense que vous avez peut-être raison, car LOO dans mon domaine a la même mauvaise réputation que plusieurs * IC.
La description sur Wikipedia ( en.wikipedia.org/wiki/… ) donne à penser que la validation croisée des plis en K est une sorte de simulation répétée pour estimer la stabilité des paramètres. Je peux voir pourquoi on s'attendrait à ce que l'AIC soit stable avec LOO (puisque LOO peut être conduit de manière exhaustive), mais je ne comprends pas pourquoi le BIC serait stable avec un pli K, à moins que K ne soit également exhaustif. La formule complexe sous-jacente à la valeur de K la rend-elle exhaustive? Ou est-ce qu'il se passe autre chose?
russellpierce
16

D'après mon expérience, le BIC entraîne de graves problèmes de sous-aménagement et l'AIC fonctionne généralement bien lorsque l'objectif est de maximiser la discrimination prédictive.

Frank Harrell
la source
1
Super retardé, mais puisque cela occupe toujours une place de choix sur Google, cela vous dérange-t-il de préciser dans quel domaine vous travaillez? Je suis juste curieux de savoir s'il y a un effet de domaine sur lequel nous devrions nous pencher.
verybadatthis
@verybadatthis: biostatistique clinique (il suffit de chercher "Frank Harrell" sur Google, il est présent sur le Web)
Ben Bolker
13

Une "dérivation" informative et accessible de AIC et BIC par Brian Ripley peut être trouvée ici: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley fournit quelques remarques sur les hypothèses sous-jacentes aux résultats mathématiques. Contrairement à ce qu'indiquent certaines des autres réponses, Ripley souligne que l'AIC repose sur l'hypothèse que le modèle est vrai. Si le modèle n'est pas vrai, un calcul général révélera que le "nombre de paramètres" doit être remplacé par une quantité plus complexe. Certaines références sont données dans les diapositives Ripleys. Notez cependant que pour la régression linéaire (à proprement parler avec une variance connue), la quantité plus compliquée se simplifie en général pour être égale au nombre de paramètres.

NRH
la source
3
(+1) Cependant, Ripley se trompe sur le point où il dit que les modèles doivent être imbriqués. Il n’existe aucune contrainte de ce type sur la dérivation initiale d’Akaike ou, pour être plus clair, sur la dérivation utilisant l’AIC comme estimateur de la divergence de Kullback-Leibler. En fait, dans un article sur lequel je travaille, je montre un peu "empiriquement" que l'AIC peut même être utilisé pour la sélection de modèles de structures de covariance (nombre différent de paramètres, modèles clairement non imbriqués). Parmi les milliers de simulations de séries temporelles que j'ai effectuées avec différentes structures de covariance, l'AIC ne s'y trompe pas ...
Néstor
... si le modèle "correct" est en fait sur l'ensemble des modèles (ceci implique cependant aussi que pour les modèles sur lesquels je travaille, la variance de l'estimateur est très petite ... mais ce n'est qu'un problème technique. détail).
Néstor
1
@ Néstor, je suis d'accord. Le point sur les modèles imbriqués est étrange.
NRH
3
Lors de la sélection de structures de covariance pour des données longitudinales (modèles à effets mixtes ou moindres carrés généralisés), l'AIC peut facilement trouver la mauvaise structure s'il y a plus de 3 structures candidates. S'il y en a plus de 3, vous devrez utiliser le bootstrap ou un autre moyen d'ajuster l'incertitude du modèle provoquée par l'utilisation de l'AIC pour sélectionner la structure.
Frank Harrell
8

En effet, la seule différence est que BIC est AIC étendu pour prendre en compte le nombre d'objets (échantillons). Je dirais que bien que les deux soient assez faibles (par rapport à la validation croisée, par exemple), il est préférable d’utiliser AIC, plutôt que de plus en plus de gens connaissent l’abréviation - en effet, je n’ai jamais vu de papier ou de programme dans être utilisé (j'avoue tout de même que je suis partial pour les problèmes où ces critères ne fonctionnent tout simplement pas)

Edit: AIC et BIC sont équivalents à la validation croisée si deux hypothèses importantes sont prises en compte - lorsqu'elles sont définies, donc lorsque le modèle est à vraisemblance et que vous ne vous intéressez qu'à la performance du modèle sur des données d'apprentissage. En cas de regroupement de certaines données dans une sorte de consensus, elles sont parfaitement correctes.
Dans le cas de la création d’une machine de prévision pour un problème réel, le premier est faux, car votre jeu d’entraînement ne représente qu’une petite quantité d’informations sur le problème que vous rencontrez, vous ne pouvez donc pas optimiser votre modèle; la seconde est fausse, car vous vous attendez à ce que votre modèle gère les nouvelles données pour lesquelles vous ne pouvez même pas vous attendre à ce que l'ensemble de formation soit représentatif. Et à cette fin, le CV a été inventé; simuler le comportement du modèle face à des données indépendantes. En cas de sélection de modèle, CV vous donne non seulement la qualité approximative, mais également une distribution d'approximation de la qualité. Il présente donc un tel avantage: "Je ne sais pas, quelles que soient les nouvelles données à venir, elles peuvent être mieux."

Scortchi
la source
Cela signifie-t-il que pour certaines tailles d'échantillon, le code BIC peut être moins strict que le code AIC?
russellpierce
1
Strict n’est pas le meilleur mot ici, mais plutôt plus tolérant pour les paramètres; Pourtant, pour les définitions communes (avec log naturel), cela se produit pour 7 objets ou moins.
AIC est asymptotiquement équivalent à la validation croisée.
Rob Hyndman le
5
@mbq - Je ne vois pas comment la validation croisée surmonte le problème de la "non-représentativité". Si vos données d'entraînement ne sont pas représentatives des données que vous recevrez à l'avenir, vous pouvez valider toutes les réponses, mais ce ne sera pas représentatif de "l'erreur de généralisation" à laquelle vous allez réellement être confronté (comme "vraies" nouvelles données ne sont pas représentées par la partie non modélisée des données d'apprentissage). Obtenir un ensemble de données représentatif est essentiel si vous voulez faire de bonnes prévisions.
Probistislogic
1
@mbq - mon propos est que vous semblez "rejeter doucement" la sélection basée sur un CI basée sur une alternative qui ne résout pas le problème. La validation croisée est bonne (bien que le calcul en vaille la peine?), Mais les données non représentatives ne peuvent pas être traitées à l'aide d'un processus piloté par les données. Du moins pas de manière fiable. Vous devez disposer d'informations préalables vous indiquant en quoi ces informations ne sont pas représentatives (ou plus généralement, quelles connexions logiques les données "non représentatives" ont avec les données futures que vous observerez).
Probistislogic
5

Comme vous l'avez mentionné, AIC et BIC sont des méthodes pour pénaliser les modèles pour avoir plus de variables de régression. Une fonction de pénalité est utilisée dans ces méthodes, en fonction du nombre de paramètres du modèle.

  • Lors de l'application de AIC, la fonction de pénalité est z (p) = 2 p .

  • Lorsque vous appliquez BIC, la fonction de pénalité est z (p) = p ln ( n ), ce qui permet d’interpréter la pénalité comme découlant d’informations antérieures (d’où le nom Bayesian Information Criterion).

Lorsque n est grand, les deux modèles produiront des résultats très différents. Ensuite, le code BIC applique une pénalité beaucoup plus lourde aux modèles complexes, ce qui aboutira à des modèles plus simples que le modèle AIC. Cependant, comme indiqué dans Wikipedia sur BIC :

Il convient de noter que dans de nombreuses applications ..., BIC réduit simplement à la sélection du maximum de vraisemblance car le nombre de paramètres est égal pour les modèles d'intérêt.

Amanda
la source
4
notez que AIC est également équivalent à ML lorsque la dimension ne change pas. Votre réponse donne l’impression que cela ne concerne que BIC.
Probistislogic
5

D'après ce que je peux dire, il n'y a pas beaucoup de différence entre AIC et BIC. Ce sont à la fois des approximations pratiques sur le plan mathématique permettant de comparer efficacement les modèles. S'ils vous donnent différents "meilleurs" modèles, cela signifie probablement que vous avez une grande incertitude liée aux modèles, qu'il est plus important de craindre que de savoir si vous devez utiliser AIC ou BIC. Personnellement, j’aime mieux BIC, car il demande plus (moins) à un modèle s’il dispose de plus de données (moins) pour s’adapter à ses paramètres - un peu comme un enseignant qui demande un niveau de performance plus élevé (moins élevé) si son élève a plus (moins ) le temps d'apprendre sur le sujet. Pour moi, cela semble être la chose intuitive à faire. Mais je suis certain qu'il existe également des arguments tout aussi intuitifs et convaincants pour AIC, étant donné sa forme simple.

Maintenant, chaque fois que vous faites une approximation, il y aura sûrement des conditions lorsque ces approximations seront nulles. Cela se vérifie certainement pour AIC, où il existe de nombreux "ajustements" (AICc) pour tenir compte de certaines conditions qui rendent l’approximation initiale mauvaise. Ceci est également présent pour BIC, car il existe diverses autres méthodes plus exactes (mais toujours efficaces), telles que les approximations de Full Laplace à des mélanges de g-priors de Zellner (BIC est une approximation de la méthode d'approximation de Laplace pour les intégrales).

Un endroit où ils sont tous les deux fous est quand vous avez des informations préalables substantielles sur les paramètres dans un modèle donné. AIC et BIC pénalisent inutilement les modèles dans lesquels les paramètres sont partiellement connus par rapport aux modèles nécessitant une estimation des paramètres à partir des données.

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

Et ensuite, continuez d’affecter les mêmes modèles de probabilité (mêmes paramètres, mêmes données, mêmes approximations, etc.), je vais obtenir le même ensemble de valeurs BIC. Ce n'est qu'en attachant une signification unique à la lettre logique "M" que l'on se laisse entraîner dans des questions non pertinentes sur "le vrai modèle" (échos de "la vraie religion"). La seule chose qui "définit" M, ce sont les équations mathématiques qui l'utilisent dans leurs calculs - et il ne s'agit presque jamais d'une définition unique. Je pourrais également formuler une proposition de prédiction à propos de M ("le ième modèle donnera les meilleures prédictions"). Personnellement, je ne vois pas en quoi cela changerait les probabilités, et donc quel sera le bon ou le mauvais BIC (l'AIC aussi - bien que l'AIC soit basé sur une dérivation différente)

Et d' ailleurs, ce qui ne va pas avec l'énoncé Si le vrai modèle est dans l'ensemble je considère, alors il y a une probabilité de 57% qu'il est le modèle B . Cela me semble assez raisonnable, ou vous pourriez choisir une version plus "soft": il existe une probabilité de 57% que le modèle B soit le meilleur de l'ensemble considéré

Un dernier commentaire: je pense que vous trouverez autant d’opinions sur AIC / BIC qu’il ya de gens qui connaissent.

probabilislogic
la source
4

L'AIC devrait rarement être utilisé, car il n'est valable que de manière asymptotique. Il est presque toujours préférable d'utiliser AICc (AIC avec c orrection pour la taille de l' échantillon fini). AIC a tendance à sur-paramétrer: ce problème est grandement atténué avec AICc. La principale exception à l'utilisation de l'AICc est lorsque les distributions sous-jacentes sont fortement leptokuriques. Pour plus d'informations à ce sujet, voir l'ouvrage Sélection de modèles de Burnham & Anderson.

utilisateur2875
la source
1
Donc, ce que vous dites, c’est que l’AIC ne punit pas suffisamment les modèles pour les paramètres; son utilisation en tant que critère peut donc conduire à une surparamétrisation. Vous recommandez l'utilisation de AICc à la place. Pour revenir à cela dans le contexte de ma question initiale, étant donné que BIC est déjà plus strict que l’AIC, existe-t-il une raison pour utiliser AICc sur BIC?
russellpierce
1
Que voulez-vous dire par AIC est valide asymptotiquement. Comme l'a souligné John Taylor, AIC est incompatible. Je pense que ses recommandations opposant AIC à BIC sont les meilleures données. Je ne vois pas les deux équivalents à la validation croisée. Ils ont tous une propriété intéressante, à savoir qu'ils atteignent généralement un modèle avec un nombre inférieur au nombre maximal de variables. Mais ils peuvent tous choisir différents modèles.
Michael Chernick
4

AIC et BIC sont des critères d’information permettant de comparer des modèles. Chacun tente d'équilibrer l'ajustement du modèle et la parcimonie et chacun pénalise différemment le nombre de paramètres.

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

Je n'ai pas entendu parler de KIC.

Peter Flom
la source
Je n'ai pas entendu parler de KIC non plus, mais pour AIC et BIC, jetez un coup d'œil à la question liée ou recherchez AIC. stats.stackexchange.com/q/577/442
Henrik le
1
(Cette réponse a été fusionnée à partir d'une question en double qui demandait également une interprétation de "KIC".)
whuber
3
Les modèles n'ont pas besoin d'être imbriqués pour être comparés avec AIC ou BIC.
Macro
1

Très brièvement:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=taille de l'échantillon (Shao 1997). Cependant, il existe de nombreuses versions différentes du code BIC qui consistent à faire des approximations différentes de la probabilité marginale ou à supposer des a priori différents. Par exemple, au lieu d'utiliser un uniforme antérieur de tous les modèles possibles comme dans le BIC d'origine, EBIC utilise un uniforme antérieur de modèles de taille fixe ( Chen & Chen 2008 ), tandis que le BICq utilise une distribution de Bernouilli spécifiant la probabilité antérieure pour chaque paramètre à inclure .

lambda=2lambda=log(n), où l’optimisation d’un objectif (LASSO ou régression nette élastique) est suivie de l’ajustement du ou des paramètres de régularisation sur la base d’un autre objectif (qui minimise par exemple l’erreur de prédiction de validation croisée, AIC ou BIC).

n1n

Notez que l'erreur LOOCV peut également être calculée analytiquement à partir des résidus et de la diagonale de la matrice chapeau , sans avoir à effectuer de validation croisée. Ce serait toujours une alternative à l'AIC sous la forme d'une approximation asymptotique de l'erreur LOOCV.

Références

Stone M. (1977) Equivalence asymptotique du choix du modèle par validation croisée et critère d'Akaike. Journal de la Société royale de statistique, série B. 39, 44–7.

Shao J. (1997) Une théorie asymptotique pour la sélection de modèles linéaires. Statistica Sinica 7, 221-242.

Tom Wenseleers
la source