J'utilise généralement BIC, car je pense qu'il valorise la parcimonie plus fortement que l'AIC. Cependant, j’ai décidé d’utiliser maintenant une approche plus globale et j’aimerais aussi utiliser AIC. Je sais que Raftery (1995) a présenté de bonnes directives pour les différences BIC: 0-2 est faible, 2-4 est la preuve positive qu'un modèle est meilleur, etc.
J'ai regardé dans les manuels scolaires et ils semblent étranges sur AIC (il semble qu'une différence plus grande soit faible et qu'une différence plus petite dans AIC signifie qu'un modèle est meilleur). Cela va à l'encontre de ce que je sais que l'on m'a appris. Je crois comprendre que vous voulez une AIC inférieure.
Est-ce que quelqu'un sait si les directives de Raftery s'appliquent également à AIC, ou si je peux citer certaines directives relatives à la "solidité des preuves" pour un modèle par rapport à un autre?
Et oui, les seuils ne sont pas géniaux (je les trouve plutôt irritants) mais ils sont utiles pour comparer différents types de preuves.
la source
Réponses:
AIC et BIC ont la même interprétation en termes de comparaison de modèles. Autrement dit, la plus grande différence entre AIC et BIC indique une meilleure preuve pour un modèle par rapport à l'autre (le plus bas étant le meilleur). C'est juste que l'AIC ne pénalise pas le nombre de paramètres aussi fortement que BIC. Il existe également une correction de l'AIC (l'AICc) utilisée pour les échantillons de taille inférieure. Vous trouverez plus d'informations sur la comparaison AIC / BIC ici .
la source
Vous parlez de deux choses différentes et vous les mélangez. Dans le premier cas, vous avez deux modèles (1 et 2) et vous avez obtenu leur AIC comme et A I C 2 . SI vous voulez comparer ces deux modèles en fonction de leur AIC, le modèle avec un AIC inférieur serait le meilleur choix, c'est-à-dire si A I C 1 < A I C 2, vous prenez le modèle 1 et inversement. Dans le 2ème cas, vous disposez d' un ensemble de modèles candidats comme modèles ( 1 , 2 , . . . , N )AIC1 AIC2 AIC1<AIC2
(1,2,...,n) et pour chaque modèle, vous calculez les différences AIC comme : Δ i = A I C i - A I C m i n , où A I C i est l'AIC du i ème modèle et A I C m i n est le minimum d'AIC parmi tous les modèles. Maintenant, le modèle avec Δ i > 10 n'a pas de support et peut être omis de toute considération supplémentaire, comme expliqué dans la section Sélection de modèle et inférence multimodèle: approche pratique de la théorie de l'informationΔi=AICi−AICmin AICi i AICmin Δi>10 par Kenneth P. Burnham, David R. Anderson, page 71. Donc, plus le est grand , plus votre modèle sera faible. Ici, le meilleur modèle a Δ i ≡ Δ m i n ≡ 0.Δi Δi≡Δmin≡0.
la source
En général, je n'utilise jamais AIC ou BIC avec objectivité pour décrire l'adéquation d'un modèle. Je ne l' utilise ces circuits intégrés pour comparer l'ajustement relatif de deux modèles prédictifs. Quant à savoir si un AIC de "2" ou de "4" est concerné, cela est complètement contextuel. Si vous voulez comprendre comment un "bon" modèle convient, vous pouvez (devriez) toujours utiliser une simulation. Votre compréhension de l’AIC est juste. AIC reçoit une contribution positive des paramètres et une contribution négative de la probabilité. Ce que vous essayez de faire, c'est d'optimiser les probabilités sans charger votre modèle de plusieurs paramètres. Donc, mon avis éclatant est que les coupures pour AIC ne sont pas bonnes hors contexte.
la source
Voici une question connexe à quel moment est-il approprié de sélectionner des modèles en minimisant l'aïc? . Cela vous donne une idée générale de ce que les gens non méconnaissables du monde universitaire jugent approprié d'écrire et quelles références laisser comme importantes.
Généralement, ce sont les différences entre les probabilités ou les AIC qui importent, pas leurs valeurs absolues. Vous avez oublié le mot important "différence" dans votre "BIC: 0-2 is faibl" dans la question - vérifiez le TABLEAU 6 de Raftery - et il est étrange que personne ne veuille corriger cela.
J'ai moi-même appris à rechercher MAICE (estimation minimale AIC - comme Akaike l'appelait). Et alors? Voici ce qu'une personne célèbre a écrit à une femme inconnue:
Mes professeurs n'ont jamais entendu parler d'articles portant des titres tels que "Test de la différence significative de deux AIC" et je ne me souviens même pas qu'ils aient jamais qualifié l'AIC de statistique, qui aurait une distribution d'échantillonnage et d'autres propriétés. On m'a appris que l'AIC est un critère à minimiser, si possible de manière automatique.
Un autre problème important, que je pense avoir été exprimé ici par IrishStat il y a quelques années (excusez-moi si je me trompe car je n'ai pas trouvé cette réponse) est que l'AIC, le BIC et d'autres critères ont été dérivés à des fins différentes et dans des conditions différentes (hypothèses), de sorte que vous ne pouvez souvent pas les utiliser indifféremment si votre objectif est de prévoir, par exemple. Vous ne pouvez pas simplement préférer quelque chose d'inapproprié.
Mes sources montrent que j'ai utilisé une citation de Burnham et Anderson (2002, p. 70) pour écrire que le delta (différences AIC) entre 0 et 2 a un support substantiel; delta dans 4-7 considérablement moins de support et delta supérieur à 10 essentiellement pas de support. En outre, j’ai écrit que "les auteurs ont également discuté des conditions dans lesquelles ces directives pourraient être utiles". Le livre est cité dans la réponse de Stat, que j’ai voté comme étant le plus pertinent.
la source
En ce qui concerne les critères d’information, voici ce que dit SAS :
Il existe deux procédures de test de modèle comparatif: a) le test de Vuong et b) le test de Clarke non paramétrique. Voir ce document pour plus de détails.
la source