BIC essaie-t-il de trouver un vrai modèle?

17

Cette question est un suivi ou une tentative de dissiper une confusion possible concernant un sujet que beaucoup d'autres trouvent un peu difficile, en ce qui concerne la différence entre AIC et BIC. Dans une très belle réponse de @Dave Kellen sur ce sujet ( /stats//a/767/30589 ), nous lisons:

Votre question implique que AIC et BIC tentent de répondre à la même question, ce qui n'est pas vrai. L'AIC essaie de sélectionner le modèle qui décrit le mieux une réalité inconnue de grande dimension. Cela signifie que la réalité n'est jamais dans l'ensemble des modèles candidats à l'étude. Au contraire, BIC essaie de trouver le modèle VRAI parmi l'ensemble des candidats. Je trouve assez étrange l'hypothèse selon laquelle la réalité est instanciée dans l'un des modèles que les chercheurs ont construit en cours de route. C'est un vrai problème pour BIC.

Dans un commentaire ci-dessous, par @ gui11aume, nous lisons:

(-1) Excellente explication, mais je voudrais contester une affirmation. @Dave Kellen Pourriez-vous s'il vous plaît donner une référence à l'endroit où l'idée que le modèle VRAI doit être dans l'ensemble pour BIC? Je voudrais enquêter là-dessus, car dans ce livre les auteurs donnent une preuve convaincante que ce n'est pas le cas. - gui11aume 27 mai 12 à 21:47

Il semble que cette assertion provient de Schwarz lui-même (1978), bien que l'assertion n'était pas nécessaire: par les mêmes auteurs (comme les liens @ gui11aume vers), nous lisons à partir de leur article "déduction multimodèle: comprendre AIC et BIC dans la sélection de modèles" ( Burnham et Anderson, 2004):

La dérivation de BIC suppose-t-elle l'existence d'un vrai modèle ou, plus précisément, le vrai modèle est-il supposé être dans l'ensemble de modèles lors de l'utilisation de BIC? (La dérivation de Schwarz spécifiait ces conditions.) ... La réponse ... non. C'est-à-dire que le BIC (comme base pour une approximation d'une certaine intégrale bayésienne) peut être dérivé sans supposer que le modèle sous-jacent à la dérivation est vrai (voir, par exemple Cavanaugh et Neath 1999; Burnham et Anderson 2002: 293-5). Certes, en appliquant le BIC, l'ensemble de modèles n'a pas besoin de contenir le vrai modèle (inexistant) représentant la réalité complète. De plus, la convergence en probabilité du modèle sélectionné par BIC vers un modèle cible (sous l'idéalisation d'un échantillon iid) ne signifie pas logiquement que ce modèle cible doit être la véritable distribution génératrice de données).

Donc, je pense qu'il vaut la peine de discuter ou de clarifier (si plus est nécessaire) à ce sujet. Pour le moment, tout ce que nous avons est un commentaire de @ gui11aume (merci!) Sous une réponse très votée concernant la différence entre AIC et BIC.

Erosennin
la source
1
Pour mieux cibler la question, AIC pourrait peut-être être supprimé du titre car, si je comprends bien, cette question vise à savoir si le vrai modèle doit être dans l'ensemble candidat lors de l'utilisation de BIC.
Juho Kokkala
@JuhoKokkala: Je suis d'accord.
Erosennin
4
Pour moi, l'essentiel est que dans la plupart des applications pratiques, le BIC entraîne un sous-ajustement et l'AIC évalue plus correctement les performances probables du modèle sur de nouvelles données non disponibles. Mais que vous utilisiez AIC ou BIC si vous choisissez parmi, disons, 3 modèles / ensembles de fonctionnalités concurrents, le modèle résultant peut s'adapter. L'AIC et le BIC fonctionnent mieux lorsque le nombre de modèles potentiels est faible ou que les modèles sont connectés par un petit nombre de paramètres (par exemple, des pénalités).
Frank Harrell
Merci @Erosennin d'avoir trouvé la référence. Je comprends maintenant d'où vient l'idée que le modèle VRAI doit être inclus.
gui11aume
@FrankHarrell: Pourriez-vous expliquer ce que vous entendez par "applications pratiques"? Si je comprends bien Burnham et Anderson, il semble que le BIC entraînera un sous-ajustement lorsque les données seront rares. Lorsque nous avons beaucoup de données, BIC choisira / recherchera en fait un modèle quasi-vrai plus complexe que AIC. L'AIC et le BIC ont des "modèles cibles" différents. J'aimerais une élaboration de ce que vous dites, ne serait-ce que pour m'orienter vers un article / livre.
Erosennin

Réponses:

11

p(M1|y)p(M2|y)>1UNESjeC(M1)<SjeC(M2)
UNEp(Mj|y)jy

jeC(k)=-2Tl(θ^;y)+kg(T)
l(θ^;y)θ^kT
g(T)0comme
Tg(T)comme
gUNEjeC(T)=2T,gSjeC(T)=lnTT

Elliott, G. et A. Timmermann (2016, avril). Prévisions économiques. Princeton University Press.

Schwarz, Gideon. "Estimation de la dimension d'un modèle." Les annales des statistiques 6.2 (1978): 461-464.

Matthias Schmidtblaicher
la source