Test de la différence AIC de deux modèles non imbriqués

12

L'intérêt de l'AIC ou de tout autre critère d'information est que moins c'est mieux. Donc, si j'ai deux modèles M1: y = a0 + XA + e et M2: y = b0 + ZB + u, et si l'AIC du premier (A1) est inférieur à celui du second (A2), alors M1 a un meilleur ajustement du point de vue de la théorie de l'information. Mais existe-t-il un point de référence pour la différence A1-A2? Combien moins est en fait moins? En d'autres termes, existe-t-il un test pour (A1-A2) autre que le simple regard?

Edit: Peter / Dmitrij ... Merci d'avoir répondu. En fait, il s'agit d'un cas où mon expertise substantielle est en conflit avec mon expertise statistique. Essentiellement, le problème n'est pas de choisir entre deux modèles, mais de vérifier si deux variables que je sais être largement équivalentes ajoutent des quantités d'informations équivalentes (en fait, une variable dans le premier modèle et un vecteur dans le second. Réfléchissez au cas de un tas de variables par rapport à un index d'entre eux.). Comme l'a souligné Dmitrij, le meilleur pari semble être le test de Cox. Mais existe-t-il un moyen de tester réellement la différence entre le contenu informationnel des deux modèles?

user3671
la source
Vous pouvez également consulter Wagonmakers et al. (2004). Évaluation du mimétisme du modèle à l'aide du bootstrap paramétrique. Journal of Mathematical Psychology, 48 , 28-50. ( pdf ).
gung - Réintégrer Monica

Réponses:

13

La question de la curiosité, c'est-à-dire que vous n'êtes pas satisfait de ma réponse ici ? Si non...

Un examen plus approfondi de cette question délicate a montré qu'il existe une règle empirique couramment utilisée, selon laquelle deux modèles sont indiscernables par le critère si la différence | A I C 1 - A I C 2 | < 2 . La même chose que vous lirez dans l'article de wikipedia sur A I C (notez que le lien est cliquable!). Pour ceux qui ne cliquent pas sur les liens:AIC|AIC1AIC2|<2AIC

estime le support relatif d'un modèle. Pour appliquer cela dans la pratique, nous commençons par un ensemble de modèles candidats, puis trouvons lesvaleurs A I C correspondantes des modèles. Ensuite, identifier le minimum A I C valeur. La sélection d'un modèle peut alors être effectuée comme suit.AICAICAIC

En règle générale, les modèles dont le compris entre du minimum bénéficient d'un soutien substantiel et doivent être pris en considération pour faire des inférences. Les modèles ayant leur à environ à du minimum ont considérablement moins de support, tandis que les modèles avec leur au-dessus du minimum n'ont essentiellement aucun support et pourraient être omis de plus ample examen ou du moins ne pas expliquer une variation structurelle substantielle dans les données.AICA I C12AICA I C > 1047AIC>10

Une approche plus générale est la suivante ...

Notons les valeurs des modèles candidats par , . Soit le minimum de ces valeurs. Alors peut être interprété comme la probabilité relative que le ème modèle minimise la perte d'information (estimée estimée).AICA I C 2 , A I C 3 , , A I C R A I C m i n e ( A I C m i n - A I C i ) / 2 iAIC1AIC2,AIC3,,AICRAICmine(AICminAICi)/2i

Par exemple, supposons qu'il y avait trois modèles dans l'ensemble candidat, avec les valeurs , et . Alors le deuxième modèle est fois plus probable que le premier modèle pour minimiser la perte d'informations, et le troisième modèle est fois aussi probable que le premier modèle pour minimiser la perte d'informations. Dans ce cas, nous pourrions omettre le troisième modèle de plus ample examen et prendre une moyenne pondérée des deux premiers modèles, avec les pondérations et , respectivement. L'inférence statistique serait alors basée sur le multimodèle pondéré.AIC100102110e(100102)/2=0.368e(100110)/2=0.00710.368

Belle explication et suggestions utiles, à mon avis. N'ayez pas peur de lire ce qui est cliquable!

De plus , notez encore une fois, l' est moins préférable pour les ensembles de données à grande échelle. En plus de vous pouvez trouver utile d'appliquer la version corrigée du biais du critère (vous pouvez utiliser ce code ou utiliser la formule , où est le nombre de paramètres estimés). La règle générale sera la même cependant. AICBICAICAICcR AICc=AIC+2p(p+1)np1p

Dmitrij Celov
la source
Salut Dmitrij ... Je savais que tu verrais ça. En fait, votre réponse à la question d'origine a mis ce train en marche. Je pensais que cela ferait une question autonome intéressante. Le problème avec lequel je suis aux prises est que les tests statistiques (y compris le test de Cox) sont fréquents et vous pouvez donc tester les différences entre deux modèles à un niveau de signification prédéfini. Mais les AIC / BIC sont basés sur la vraisemblance, et il me semble que les chiffres ne peuvent pas être comparés directement sauf, comme vous le faites remarquer, par la règle d'or. Étant donné que les mesures IC dépendent de l'échelle, une valeur absolue (2) peut être problématique, non?
user3671
@user, La valeur absolue de n'est pas problématique. Vous pouvez opter pour une suggestion de probabilité relative, vous serez donc probablement plus confiant avec cela qu'avec une belle valeur de . Par effet d'échelle, vous voulez dire lorsque le critère est moins biaisé dans les petits échantillons et cohérent dans les grands? Essayez plutôt cohérent et pour les petits échantillons sera également une bonne alternative. Les règles générales sont toujours utilisables. 2 B I C A I C c22BICAICc
Dmitrij Celov
1
@DmitrijCelov (+1 il y a quelque temps) belle réponse - merci d'avoir collé le texte, car Wikipedia n'a plus les points couverts dans les deux premiers paragraphes. Le paragraphe supprimé a été cité comme p. 446: Burnham, K. P., and Anderson, D.R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd ed. Springer-Verlag. ISBN 0-387-95364-7. et la page Wiki de pré-révision est ici
James Stanley
Je dois noter que je n'ai pas lu le livre de Burnham et que l'ancienne référence Wiki suggérait que le texte cité était une paraphrase. Pour info, la page Wiki a été éditée à 16h52, le 15 avril 2011.
James Stanley
Pourriez-vous peut-être aider avec cette question de suivi? stats.stackexchange.com/questions/349883/…
Tripartio
8

Je pense que cela peut être une tentative d'obtenir ce que vous ne voulez pas vraiment.

La sélection des modèles n'est pas une science. Sauf dans de rares circonstances, il n'y a pas de modèle parfait, ni même de «vrai» modèle; il y a rarement même un "meilleur" modèle. Les discussions entre AIC vs AICc vs BIC vs SBC vs quoi que ce soit me laissent un peu perplexe. Je pense que l'idée est d'obtenir de BONS modèles. Vous choisissez ensuite parmi eux sur la base d'une combinaison d'expertise substantielle et d'idées statistiques. Si vous n'avez pas d'expertise substantielle (rarement le cas; beaucoup plus rarement que la plupart des gens ne le pensent), choisissez l'AIC le plus bas (ou AICc ou autre). Mais vous avez généralement une certaine expertise - sinon pourquoi étudiez-vous ces variables particulières?

Peter Flom - Réintégrer Monica
la source
2
+1 pour souligner la nécessité d'une expertise à la fois statistique et technique.
chl