Directives AIC dans la sélection du modèle

32

J'utilise généralement BIC, car je pense qu'il valorise la parcimonie plus fortement que l'AIC. Cependant, j’ai décidé d’utiliser maintenant une approche plus globale et j’aimerais aussi utiliser AIC. Je sais que Raftery (1995) a présenté de bonnes directives pour les différences BIC: 0-2 est faible, 2-4 est la preuve positive qu'un modèle est meilleur, etc.

J'ai regardé dans les manuels scolaires et ils semblent étranges sur AIC (il semble qu'une différence plus grande soit faible et qu'une différence plus petite dans AIC signifie qu'un modèle est meilleur). Cela va à l'encontre de ce que je sais que l'on m'a appris. Je crois comprendre que vous voulez une AIC inférieure.

Est-ce que quelqu'un sait si les directives de Raftery s'appliquent également à AIC, ou si je peux citer certaines directives relatives à la "solidité des preuves" pour un modèle par rapport à un autre?

Et oui, les seuils ne sont pas géniaux (je les trouve plutôt irritants) mais ils sont utiles pour comparer différents types de preuves.

Tom Carpenter
la source
1
S'agit- il (pdf) du papier Raftery auquel vous faites référence?
Gay - Rétablir Monica
4
Les lecteurs ici présents peuvent être intéressés par l'excellent fil de discussion suivant: Y a
Gay - Rétablir Monica
1
À quels manuels faites-vous allusion lorsque vous dites " J'ai regardé dans les manuels et ils semblent étranges sur AIC (on dirait qu'une différence plus importante est faible et qu'une différence plus petite dans AIC signifie qu'un modèle est meilleur) " --- et qu'est-ce qu'ils font réellement dire?
Glen_b -Reinstate Monica
1
Votre deuxième para n'est pas clair. Vous voulez probablement dire ceci: alors que de grandes différences suggèrent que le modèle avec les valeurs les plus faibles sont préférables, les différences plus petites sont difficiles à évaluer. De plus, les statisticiens doivent encore se mettre d’accord sur les différences «petites» ou «importantes» - Singer et Willet (2003, p.122)
Hibernation le
1
Quant à votre troisième paragraphe, si vous souhaitez adopter les catégories de force probante avancées par Jeffreys (1961, p. 432), je peux vous donner la référence complète.
Hibernation le

Réponses:

23

AIC et BIC ont la même interprétation en termes de comparaison de modèles. Autrement dit, la plus grande différence entre AIC et BIC indique une meilleure preuve pour un modèle par rapport à l'autre (le plus bas étant le meilleur). C'est juste que l'AIC ne pénalise pas le nombre de paramètres aussi fortement que BIC. Il existe également une correction de l'AIC (l'AICc) utilisée pour les échantillons de taille inférieure. Vous trouverez plus d'informations sur la comparaison AIC / BIC ici .

dmartin
la source
5
+1 Juste pour ajouter / clarifier: AIC (et AICc) utilise la divergence KL. Par conséquent, exactement parce que l'AIC reflète des informations "supplémentaires", plus elle est petite, mieux c'est. En d’autres termes, comme notre taille d’échantillon , le modèle avec le score AIC minimal possédera la divergence de Kullback-Leibler la plus petite et sera donc le modèle le plus proche du modèle "vrai". N
usεr11852 dit Rétablir Monic
28

Vous parlez de deux choses différentes et vous les mélangez. Dans le premier cas, vous avez deux modèles (1 et 2) et vous avez obtenu leur AIC comme et A I C 2 . SI vous voulez comparer ces deux modèles en fonction de leur AIC, le modèle avec un AIC inférieur serait le meilleur choix, c'est-à-dire si A I C 1 < A I C 2, vous prenez le modèle 1 et inversement. Dans le 2ème cas, vous disposez d' un ensemble de modèles candidats comme modèles ( 1 , 2 , . . . , N )AIC1AIC2AIC1<AIC2
(1,2,...,n)et pour chaque modèle, vous calculez les différences AIC comme : Δ i = A I C i - A I C m i n , où A I C i est l'AIC du i ème modèle et A I C m i n est le minimum d'AIC parmi tous les modèles. Maintenant, le modèle avec Δ i > 10 n'a pas de support et peut être omis de toute considération supplémentaire, comme expliqué dans la section Sélection de modèle et inférence multimodèle: approche pratique de la théorie de l'informationΔi=AICiAICminAICiiAICminΔi>10par Kenneth P. Burnham, David R. Anderson, page 71. Donc, plus le est grand , plus votre modèle sera faible. Ici, le meilleur modèle a Δ iΔ m i n0.ΔiΔiΔmin0.

Stat
la source
1
Aha! Cela a totalement clarifié le "plus grand que" bit. Merci!
Tom Carpenter
7

En général, je n'utilise jamais AIC ou BIC avec objectivité pour décrire l'adéquation d'un modèle. Je ne l' utilise ces circuits intégrés pour comparer l'ajustement relatif de deux modèles prédictifs. Quant à savoir si un AIC de "2" ou de "4" est concerné, cela est complètement contextuel. Si vous voulez comprendre comment un "bon" modèle convient, vous pouvez (devriez) toujours utiliser une simulation. Votre compréhension de l’AIC est juste. AIC reçoit une contribution positive des paramètres et une contribution négative de la probabilité. Ce que vous essayez de faire, c'est d'optimiser les probabilités sans charger votre modèle de plusieurs paramètres. Donc, mon avis éclatant est que les coupures pour AIC ne sont pas bonnes hors contexte.

AdamO
la source
Et si vos modèles ne permettent aucune simulation?
Stat
6
Tut tut! Comment est-ce possible? On peut bootstrap le monde.
AdamO
Bonne chance avec ça ... simulez le monde lol
Stat
2
@Stat Je suis très sérieux quand je dis que je ne peux pas concevoir une situation dans laquelle il serait impossible de simuler les données d'un modèle. À tout le moins, l’amorçage à partir du jeu de données d’apprentissage constitue une approche de simulation valable.
AdamO
Lorsque l'amorçage est difficile, une validation croisée ou même un simple jackknif devrait fonctionner. En outre, la moyenne des modèles fournit un moyen de réconcilier les informations provenant de modèles avec des AIC similaires.
N Brouwer
2

Voici une question connexe à quel moment est-il approprié de sélectionner des modèles en minimisant l'aïc? . Cela vous donne une idée générale de ce que les gens non méconnaissables du monde universitaire jugent approprié d'écrire et quelles références laisser comme importantes.

Généralement, ce sont les différences entre les probabilités ou les AIC qui importent, pas leurs valeurs absolues. Vous avez oublié le mot important "différence" dans votre "BIC: 0-2 is faibl" dans la question - vérifiez le TABLEAU 6 de Raftery - et il est étrange que personne ne veuille corriger cela.

J'ai moi-même appris à rechercher MAICE (estimation minimale AIC - comme Akaike l'appelait). Et alors? Voici ce qu'une personne célèbre a écrit à une femme inconnue:

Dear Miss -- 
I have read about sixteen pages of your manuscript ... I suffered exactly the same 
treatment at the hands of my teachers who disliked me for my independence and passed 
over me when they wanted assistants ... keep your manuscript for your sons and
daughters, in order that they may derive consolation from it and not give a damn for
what their teachers tell them or think of them. ... There is too much education
altogether.

Mes professeurs n'ont jamais entendu parler d'articles portant des titres tels que "Test de la différence significative de deux AIC" et je ne me souviens même pas qu'ils aient jamais qualifié l'AIC de statistique, qui aurait une distribution d'échantillonnage et d'autres propriétés. On m'a appris que l'AIC est un critère à minimiser, si possible de manière automatique.

Un autre problème important, que je pense avoir été exprimé ici par IrishStat il y a quelques années (excusez-moi si je me trompe car je n'ai pas trouvé cette réponse) est que l'AIC, le BIC et d'autres critères ont été dérivés à des fins différentes et dans des conditions différentes (hypothèses), de sorte que vous ne pouvez souvent pas les utiliser indifféremment si votre objectif est de prévoir, par exemple. Vous ne pouvez pas simplement préférer quelque chose d'inapproprié.

Mes sources montrent que j'ai utilisé une citation de Burnham et Anderson (2002, p. 70) pour écrire que le delta (différences AIC) entre 0 et 2 a un support substantiel; delta dans 4-7 considérablement moins de support et delta supérieur à 10 essentiellement pas de support. En outre, j’ai écrit que "les auteurs ont également discuté des conditions dans lesquelles ces directives pourraient être utiles". Le livre est cité dans la réponse de Stat, que j’ai voté comme étant le plus pertinent.

En hibernation
la source
0

En ce qui concerne les critères d’information, voici ce que dit SAS :

"Notez que des critères d'information tels que ceux d'Akaike (AIC), de Schwarz (SC, BIC) et de QIC peuvent être utilisés pour comparer des modèles non imbriqués concurrents, mais ne fournissent pas de test de comparaison. Par conséquent, ils ne peuvent pas indiquer si un modèle est significativement différent. mieux que d’autres. Les procédures GENMOD, LOGISTIC, GLIMMIX, MIXED, etc., fournissent des informations sur les critères de mesure. "

Il existe deux procédures de test de modèle comparatif: a) le test de Vuong et b) le test de Clarke non paramétrique. Voir ce document pour plus de détails.

Métrique
la source
Je trouve la notation mathématique utilisée dans le "papier" cité (c.-à-d. La présentation) incompréhensible sans commentaires. En particulier, que symbolise la ligne de tirets? Implication?
Adam Ryczkowski