Que signifie le score Akaike Information Criterion (AIC) d'un modèle?

34

J'ai vu quelques questions ici sur ce que cela signifie en termes simples, mais elles sont trop laïques pour mon objectif ici. J'essaie de comprendre mathématiquement la signification du score AIC.

Mais en même temps, je ne veux pas d’une preuve rigoureuse qui me ferait perdre de vue les points les plus importants. Par exemple, s'il s'agissait d'un calcul, je serais heureux avec des infinitésimaux, et s'il s'agissait de théorie des probabilités, je serais heureux sans théorie des mesures.

Ma tentative

en lisant ici , et avec un peu de sucre de notation, est le critère AIC du modèle du jeu de données comme suit: où est le nombre de paramètres de modèle et est la valeur de la fonction de vraisemblance maximale du modèle de jeu de données .AICm,DmD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

Voici ma compréhension de ce que ce qui précède implique:

m=arg maxθPr(D|θ)

Par ici:

  • km est le nombre de paramètres de m .
  • Lm,D=Pr(D|m)=L(m|D) .

Réécrivons maintenant AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

Evidemment, Pr(D|m) est la probabilité d'observer le jeu de données sous le modèle m . Donc , plus le modèle m correspond à l'ensemble de données , plus Pr(|m) devient, et donc plus le terme -2bûchee(Pr(|m)) devient.

Donc, clairement, l'AIC récompense les modèles qui correspondent à leurs jeux de données (car un AICm, plus petit est préférable).

D'autre part, le terme 2km punit clairement les modèles avec plus de paramètres en rendant AICm, plus grand.

En d'autres termes, l'AIC semble être une mesure qui:

  • Récompense les modèles précis (ceux qui correspondent mieux à ) de manière logarithmique. Par exemple, il valorise une augmentation de la condition physique de 0.4 à 0.5 supérieure à celle de sa condition physique de 0.8 à 0,9 . Ceci est montré dans la figure ci-dessous.
  • Récompense la réduction des paramètres de manière linéaire. Donc, la diminution des paramètres de à est récompensée autant que la diminution de à .8 2 19821

entrez la description de l'image ici

En d'autres termes (encore), AIC définit un compromis entre l'importance de la simplicité et l'importance de la forme physique .

En d'autres termes (encore), AIC semble suggérer que:

  • L'importance de la condition physique diminue.
  • Mais l’importance de la simplicité ne diminue jamais, mais est toujours toujours importante.

Q1: Mais la question qui se pose est la suivante: pourquoi devrions-nous nous préoccuper de ce compromis particulier entre remise en forme et simplicité?

Q2: Pourquoi et pourquoi ? Pourquoi pas simplement: c'est-à-dire devrait dans la même vue être tout aussi utile pour et devrait pouvoir servir à comparer relativement différents modèles (ce n'est tout simplement pas mis à l'échelle par ; en avons-nous besoin?).2k2bûchee()AICm,D,SIMPLEAICm,D2

AICm,=2km-2dans(Lm,)=2(km-dans(Lm,))AICm,2=km-dans(Lm,)AICm,,SIMPLE=km-dans(Lm,)
AICm,,SIMPLEAICm,2

Q3: Quel est le lien avec la théorie de l'information? Est-ce que quelqu'un pourrait tirer cela d'un début théorique de l'information?

Homme des cavernes
la source
2
Que signifie votre notation dans ? Voulez-vous dire quelque chose à propos du choix du modèle? Ce que vous avez mentionné ci-dessus n'implique pas vraiment que l'AIC vous oblige à choisir un modèle. Comme vous le dites, la Q2 est quelque chose de très arbitraire dans un sens, mais elle provient du fait qu’AIC est une estimation de la divergence de Kullback-Leibler, qui concerne également la réponse à Q1 et donne un sens à des quantités telles que . exp ( ( AIC m - min ( AIC 1 , , AIC M ) ) / 2 )m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
Björn
θ Pr ( D | θ ) θ D D θ m θarg maxθPr(D|θ) signifie de continuer à chercher plusieurs jusqu'à ce que vous en trouviez un qui minimise la probabilité . Chaque est un tuple / vecteur de paramètres qui définissent notre modèle qui tente d'expliquer ensemble de données . Donc, essentiellement, il est dit: nous avons le jeu de données , quelle est la probabilité qu'il ait été généré par un modèle paramétré par ? Notre modèle est essentiellement qui résout ce problème de maximisation. θPr(D|θ)θDDθmθ
homme des cavernes
3
Désolé, mais recherchez-vous plusieurs modèles (puisque vous écrivez ), ou parlez-vous de l'estimation de la probabilité maximum ? Notez également que est la probabilité que les données soient stockées sous le modèle donné et pour les paramètres donnés, et non la probabilité que les données aient été générées par ce modèle paramétré par . ... θ : = arg max θ P modèle donné ( D | θ ) P modèle donné ( D | θ ) θm=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
Björn
MLE est ce que je veux dire. Mais j'essaie simplement de dire que les paramètres tuple sont si complets qu'ils définissent également le modèle. De plus, je peux avoir plusieurs modèles, par exemple chacun avec un score AIC différent . Je suis en train d'inventer cette notation parce que je pense que c'est plus simple. Est-ce que je me trompe terriblement ou si je crée une confusion inutile? (et merci de m'avoir corrigé sur ce que signifie le MLE)m 1 , m 2 AIC 1 , AIC 2θm1,m2AIC1,AIC2
homme des cavernes
3
Une dérivation de l'AIC comme approximation de la perte attendue d'informations KL est donnée dans Pawitan (2001), Très
probable, Chapitre

Réponses:

13

Cette question de l'homme des cavernes est populaire, mais il n'y a pas eu de tentative de réponse avant des mois avant la controverse . Il se peut que la réponse réelle ci-dessous ne soit pas, en soi, controversée, mais simplement que les questions soient "chargées", parce que le domaine semble (du moins pour moi) être peuplé par des acolytes d'AIC et de BIC qui préféreraient utiliser MCO que les méthodes de chacun. Veuillez examiner toutes les hypothèses énumérées et les restrictions imposées sur les types de données et les méthodes d'analyse, et commentez-les; résoudre ce problème, contribuer. Jusqu'à présent, certaines personnes très intelligentes ont contribué, de sorte que les progrès sont lents. Je salue les contributions de Richard Hardy et de GeoMatt22, les paroles aimables d’Antoni Parellada et les vaillantes tentatives de Cagdas Ozgenc et Ben Ogorek de relier la divergence de KL à une divergence réelle.

Avant de commencer, examinons ce qu'est l'AIC. Les sources nécessaires à cette comparaison sont les conditions préalables à la comparaison de modèles AIC et une autre est celle de Rob J Hyndman . En particulier, l'AIC est calculé pour être égal à

2k2log(L(θ)),

où est le nombre de paramètres du modèle et la fonction de vraisemblance. L'AIC compare le compromis entre la variance ( ) et le biais ( ) à partir des hypothèses de modélisation. De faits et sophismes de l'AIC , point 3 « L'AIC ne suppose pas que les résidus sont gaussiennes. Il est juste que la probabilité gaussienne est le plus fréquemment utilisé. Mais si vous voulez utiliser une autre distribution, allez - y. » L'AIC est la probabilité pénalisée, quelle que soit la probabilité que vous choisissiez d'utiliser. Par exemple, pour résoudre AIC pour les résidus distribués de Student, nous pourrions utiliser la solution du maximum de vraisemblance pour Student's-t . leL ( θ ) 2 k 2 log ( L ( θ ) )kL(θ)2k2log(L(θ))log-vraisemblance habituellement appliqué pour AIC est dérivé de log-vraisemblance gaussien et donné par

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

| D | μ x K > > | D | > 2 K > | D | K > > | D | K | D | cK étant la structure de covariance du modèle,la taille de l'échantillon; le nombre d'observations dans les jeux de données, la réponse moyenne et la variable dépendante. Notez que, à proprement parler, il n'est pas nécessaire que AIC corrige la taille de l'échantillon, car AIC n'est pas utilisé pour comparer des jeux de données, mais uniquement des modèles utilisant le même jeu de données. Par conséquent, nous n'avons pas à rechercher si la correction de la taille de l'échantillon est effectuée correctement ou non, mais nous devrions nous en préoccuper si nous pouvions en quelque sorte généraliser l'AIC comme étant utile entre les jeux de données. De même, on fait beaucoup sur pour assurer l'efficacité asymptotique. Un point de vue minimaliste pourrait considérer l’AIC comme un simple "index" rendant|D|μxK>>|D|>2K>|D|pertinentes etsans importance. Cependant, une certaine attention a été accordée à cela sous la forme d’une AIC modifiée pour pas beaucoup plus grande queappelé AIC voir deuxième paragraphe de la réponse à la question 2 ci-dessous. Cette prolifération de "mesures" ne fait que renforcer la notion selon laquelle l'AIC est un indice. Toutefois, il est recommandé de faire preuve de prudence lorsque vous utilisez le mot "i", car certains défenseurs de l'AIC assimilent l'utilisation du mot "index" au même penchant pour celui de faire référence à leur ontogenèse comme étant extra-conjugale.K>>|D|K|D|c

Q1: Mais la question qui se pose est la suivante: pourquoi devrions-nous nous préoccuper de ce compromis particulier entre remise en forme et simplicité?

Répondez en deux parties. D'abord la question spécifique. Vous ne devriez vous en soucier que parce que c'était ainsi que cela était défini. Si vous préférez, il n'y a aucune raison de ne pas définir un CIC; critère d’homme des cavernes, ce ne sera pas AIC, mais CIC produira les mêmes réponses qu’AIC, cela n’affectera pas le compromis entre qualité de l’ajustement et simplicité de positionnement. Toute constante qui aurait pu être utilisée comme multiplicateur AIC, y compris une fois, aurait dû être choisie et respectée, car il n’existait pas de norme de référence permettant d’appliquer une échelle absolue. Cependant, adhérer à une définition standard n’est pas arbitraire en ce sens qu’il ne peut y avoir qu’une définition, ou "convention", pour une quantité, telle que AIC, définie uniquement à une échelle relative. Voir également l'hypothèse n ° 3 de l'AIC, ci-dessous.

La deuxième réponse à cette question concerne les spécificités du compromis AIC entre qualité d’ajustement et simplicité de positionnement, quelle que soit la manière dont son multiplicateur constant aurait été choisi. C'est-à-dire, qu'est-ce qui affecte réellement le "compromis"? Une des choses qui affecte ceci, est le degré de liberté ajusté pour le nombre de paramètres dans un modèle, ce qui a conduit à définir un "nouvel" AIC appelé AIC comme suit:c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

où est la taille de l'échantillon. Puisque la pondération est maintenant légèrement différente lors de la comparaison de modèles ayant un nombre différent de paramètres, AIC sélectionne les modèles différemment de l'AIC lui-même et est identique à l'AIC lorsque les deux modèles sont différents mais ont le même nombre de paramètres. D'autres méthodes sélectionneront également les modèles différemment, par exemple, "Le critère d'information BIC [sic, informations bayésiennes ] pénalise généralement les paramètres libres plus fortement que le critère d'information d'Akaike, bien que cela dépende ..." le caractère indispensable des valeurs de paramètre différemment et, dans certaines circonstances, serait préférable à l' utilisation de l'AICcnc. En général, toute méthode d'évaluation de la pertinence d'un modèle aura ses avantages et ses inconvénients. Mon conseil serait de tester la performance de toute méthode de sélection de modèle pour son application à la méthodologie de régression de données plus vigoureusement que de tester les modèles eux-mêmes. Une raison de douter? Oui, il faut prendre soin lors de la construction ou de la sélection d'un test sur modèle de sélectionner des méthodes méthodologiquement appropriées. L'AIC est utile pour un sous-ensemble d'évaluations de modèles, voir Q3, ci-après. Par exemple, l'extraction d'informations avec le modèle A peut être mieux réalisée avec la méthode de régression 1 et pour le modèle B avec la méthode de régression 2, où modèle B et méthode 2 donnent parfois des réponses non physiques, et où aucune des méthodes de régression n'est MLR,

Q3 Quel est le lien avec la théorie de l'information ?

Hypothèse n ° 1 de la MLR. AIC est fondé sur les hypothèses d’applicabilité du maximum de vraisemblance (MLR) à un problème de régression. Il n’existe qu’une circonstance dans laquelle la régression par la méthode des moindres carrés et la régression du maximum de vraisemblance ont été signalées comme identiques. Ce serait le cas lorsque les résidus de la régression linéaire par la méthode des moindres carrés ordinaires (MCO) sont normalement distribués et que MLR a une fonction de perte gaussienne. Dans les autres cas de régression linéaire MCO, pour la régression MLS non linéaire et les fonctions de perte non gaussiennes, MLR et MLS peuvent différer. Il existe de nombreux autres objectifs de régression que la méthode MCO ou MLO ou même la qualité de l'ajustement et, souvent, une bonne réponse n'a pas grand-chose à voir avec, par exemple, la plupart des problèmes inverses.. On a beaucoup cité de tentatives (par exemple, 1100 fois) d’utiliser une AIC généralisée pour le quasi-vraisemblance, de sorte que la dépendance à la régression du maximum de vraisemblance soit assouplie pour admettre des fonctions de perte plus générales . De plus, la RLM pour Student, bien qu’elle ne soit pas sous forme fermée, est fortement convergente . Étant donné que les distributions résiduelles de Student-t sont à la fois plus communes et plus générales que les conditions gaussiennes, et qu’elles incluent toutes les conditions gaussiennes, je ne vois aucune raison particulière d’utiliser l’hypothèse gaussienne pour les AIC.

Hypothèse n ° 2 de la MLR. MLR est une tentative de quantifier la qualité de l'ajustement. Il est parfois appliqué quand cela ne convient pas. Par exemple, pour les données de plage ajustée, lorsque le modèle utilisé n'est pas ajusté. La qualité de l'ajustement est très bien si nous avons une couverture complète de l'information. Dans les séries chronologiques, nous ne disposons généralement pas d'assez rapidement d'informations pour comprendre pleinement les événements physiques qui se produisent initialement, ou nos modèles peuvent ne pas être suffisamment complets pour examiner des données très précoces. Ce qui est encore plus troublant, c’est que l’on ne peut souvent pas tester la qualité de l’ajustement très tard, faute de données. Ainsi, la qualité de l'ajustement peut ne modéliser que 30% de la surface ajustée sous la courbe. Dans ce cas, nous jugeons un modèle extrapolé en fonction de l'emplacement des données et n'examinons pas ce que cela signifie. Pour extrapoler, nous devons examiner non seulement la qualité de l'ajustement des «montants», mais également les dérivés de ces montants à défaut pour lesquels nous n'avons aucune «qualité» d'extrapolation. Ainsi, les techniques d'ajustement telles que les B-splines trouvent une utilisation, car elles permettent de prédire plus en douceur la nature des données lorsque les dérivées sont ajustées, ou bien des traitements à problème inverses, par exemple un traitement intégral mal posé sur toute la plage du modèle, comme l'adaptation adaptative de la propagation des erreurs de Tikhonov. régularisation.

Autre préoccupation complexe, les données peuvent nous indiquer ce que nous devrions en faire. Ce dont nous avons besoin pour la qualité de l’ajustement (le cas échéant), c’est d’avoir les valeurs résiduelles qui sont des distances en ce sens que l’écart type est une distance. En d'autres termes, la qualité de l'ajustement n'aurait pas beaucoup de sens si un résidu deux fois plus long qu'un seul écart-type n'avait pas également une longueur de deux écarts-types. La sélection des transformations de données doit être étudiée avant d'appliquer toute méthode de sélection / régression de modèle. Si les données comportent une erreur de type proportionnelle, prendre le logarithme avant de sélectionner une régression n’est pas inapproprié, car il transforme ensuite les écarts-types en distances. Alternativement, nous pouvons modifier la norme à minimiser pour tenir compte des données proportionnelles d’ajustement. Il en serait de même pour la structure d'erreur de Poisson, nous pouvons soit prendre la racine carrée des données pour normaliser l'erreur, soit modifier notre norme d'adaptation. Il existe des problèmes beaucoup plus complexes, voire insolubles, si nous ne pouvons pas modifier la norme d’ajustement, par exemple, les statistiques de comptage de Poisson issues de la désintégration nucléaire lorsque la désintégration du radionucléide introduit une association exponentielle fondée sur le temps entre la donnée de comptage et la masse réelle qui aurait émanant de ces chefs n’avait pas été en décomposition. Pourquoi? Si nous corrigeons à nouveau les taux de comptage, nous n’avons plus de statistiques de Poisson et les résidus (ou erreurs) de la racine carrée des comptages corrigés ne sont plus des distances. Si nous voulons ensuite effectuer un test d'adéquation des données corrigées de la dégradation (par exemple, AIC), nous devrions le faire d'une manière inconnue de mon humble moi-même. Question ouverte au lectorat, si nous insistons pour utiliser MLR, Pouvons-nous modifier sa norme pour prendre en compte le type d'erreur des données (souhaitable), ou devons-nous toujours transformer les données pour permettre l'utilisation de MLR (pas aussi utile)? Remarque: AIC ne compare pas les méthodes de régression pour un seul modèle, mais compare différents modèles pour la même méthode de régression.

Hypothèse n ° 1 de l'AIC. Il semblerait que la RLM ne soit pas limitée aux résidus normaux, par exemple, voir cette question à propos de la RLM et de Student . Ensuite, supposons que la RLM est appropriée à notre problème afin de suivre son utilisation pour comparer les valeurs AIC en théorie. Ensuite , nous partons du principe que ont 1) des informations complètes, 2) le même type de distribution des résidus (par exemple, à la fois normale, à la fois Student's- t ) pendant au moins 2 modèles. En d’autres termes, il se peut que deux modèles aient désormais le type de distribution des résidus. Cela pourrait-il arriver? Oui, probablement, mais certainement pas toujours.

Hypothèse n ° 2 de l'AIC. AIC rapporte le logarithme négatif de la quantité (nombre de paramètres dans le modèle divisé par la divergence de Kullback-Leibler ). Cette hypothèse est-elle nécessaire? Dans le document sur les fonctions de perte générales , une "divergence" différente est utilisée. Cela nous conduit à nous demander si cette autre mesure est plus générale que la divergence de KL, pourquoi ne l'utilisons-nous pas également pour l'AIC?

L'information incompatible pour l'AIC provenant de la divergence de Kullback-Leibler est la suivante: "Bien que ... souvent intuitivement utilisé comme moyen de mesurer la distance entre les distributions de probabilité, la divergence de Kullback-Leibler n'est pas une véritable métrique." Nous verrons pourquoi sous peu.

L’argument KL arrive au point où la différence entre deux choses, le modèle (P) et les données (Q), est

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

que nous reconnaissons comme l'entropie de '' P '' par rapport à '' Q ''.

Hypothèse n ° 3 de l'AIC. La plupart des formules impliquant la divergence de Kullback – Leibler sont valables quelle que soit la base du logarithme. Le multiplicateur constant pourrait avoir plus de signification si l'AIC rapportait plus d'un ensemble de données à la fois. Dans l'état actuel des comparaisons de méthodes, si tout nombre positif de fois qui sera toujours . Étant donné qu’elle est arbitraire, définir la constante sur une valeur spécifique en tant que question de définition n’est pas non plus inapproprié.AICdata,model1<AICdata,model2<

Hypothèse n ° 4 de l'AIC. Ce serait que l'AIC mesure l'entropie ou l' auto-information de Shannon . "Ce que nous devons savoir, c'est" L'entropie est-elle ce dont nous avons besoin pour une métrique d'information? "

Pour comprendre ce qu'est "l'information de soi", il nous incombe de normaliser l'information dans un contexte physique, ce que tout le monde fera. Oui, je veux qu'une mesure d'information ait des propriétés physiques. Alors, à quoi cela ressemblerait-il dans un contexte plus général?

L'équation d'énergie libre de Gibbs (ΔG=ΔHTΔS) relie le changement d'énergie au changement d'enthalpie moins la température absolue multiplié par le changement d'entropie. La température est un exemple de type de contenu d'information normalisé réussi, car si une brique chaude et une brique froide sont mises en contact l'une avec l'autre dans un environnement thermiquement fermé, la chaleur circule entre elles. Maintenant, si nous sautons sur cette question sans trop y penser, nous disons que la chaleur est l’information. Mais est-ce l'information relative qui prédit le comportement d'un système? L'information circule jusqu'à ce que l'équilibre soit atteint, mais l'équilibre de quoi? La température, c’est quoi, pas la chaleur comme dans la vitesse de particule de certaines masses de particules, je ne parle pas de température moléculaire, je parle de température brute de deux briques pouvant avoir des masses différentes, faites de matériaux différents, de densités différentes, etc. et tout ce que je dois savoir, tout ce que j'ai à savoir, c'est que la température brute est ce qui équilibre. Ainsi, si une brique est plus chaude, elle a un contenu d'information plus relatif et, lorsqu'elle est plus froide, moins.

Maintenant, si on me dit qu'une brique a plus d'entropie que l'autre, et alors? Cela, en soi, ne permettra pas de prédire s'il gagnera ou perdra de l'entropie s'il est placé au contact d'une autre brique. Ainsi, l’entropie seule est-elle une mesure utile de l’information? Oui, mais seulement si nous comparons la même brique à elle-même, d'où le terme "auto-information".

De là vient la dernière restriction: pour utiliser la divergence KL, toutes les briques doivent être identiques. Ainsi, ce qui fait de l’indice AIC un atypique, c’est qu’il n’est pas portable entre des ensembles de données (par exemple, des briques différentes), ce qui n’est pas une propriété particulièrement souhaitable qui pourrait être traitée en normalisant le contenu de l’information. La divergence KL est-elle linéaire? Peut-être que oui, peut-être que non. Cependant, cela n'a pas d'importance, nous n'avons pas besoin de supposer la linéarité pour utiliser l'AIC, et, par exemple, l'entropie elle-même, je ne pense pas, est liée de manière linéaire à la température. En d'autres termes, nous n'avons pas besoin d'une métrique linéaire pour utiliser les calculs d'entropie.

Cette thèse constitue une bonne source d’information sur l’AIC . Du côté pessimiste, cela dit: "En soi, la valeur de l'AIC pour un ensemble de données donné n'a aucune signification." Du côté optimiste, cela signifie que les modèles qui ont des résultats proches peuvent être différenciés en lissant pour établir des intervalles de confiance, et bien plus encore.

Carl
la source
1
Pouvez-vous indiquer la principale différence entre la nouvelle réponse et l'ancienne réponse supprimée? Il semble qu'il y ait assez de chevauchement.
Richard Hardy
2
J'étais en train de modifier ma réponse pendant quelques heures lorsqu'elle a été supprimée. Il y a eu beaucoup de changements par rapport à mes débuts car il s'agissait d'un travail en cours, il fallait lire et réfléchir beaucoup, et mes collègues sur ce site ne semblaient pas s'en soucier, mais ne répondaient à rien. Il semble que l'AIC soit trop bon pour un examen critique, comment puis-je oser? J'ai terminé mon édition et l'ai postée à nouveau. Je veux savoir ce qui ne va pas dans ma réponse. J'ai travaillé dur dessus et j'ai essayé d'être honnête, et personne d'autre ne l'a dérangé.
Carl
4
Ne vous énervez pas. Ma première expérience ici a également été frustrante, mais plus tard, j'ai appris à poser des questions de manière appropriée. Garder un ton neutre et éviter les opinions fortes qui ne sont pas basées sur des faits réels serait un bon début, IMHO. (J'ai d'ailleurs voté pour votre question, mais j'hésite encore à propos de la réponse.)
Richard Hardy Le
3
+1 Juste pour votre préambule. Maintenant, je vais continuer à lire la réponse.
Antoni Parellada
2
@AntoniParellada Vous avez aidé simplement en empêchant la suppression de la question, ce que j'apprécie. Travailler avec AIC a été difficile et j'ai besoin d'aide pour cela. Bien sûr , certaines de mes idées sont bonnes, mais j'ai aussi sabot maladie bouche, que d' autres esprits sont mieux à attraper que moi
Carl
5

AIC est une estimation du double du terme additif déterminé par le modèle par rapport à la divergence de Kullback-Leibler attendue entre la distribution vraie et le modèle paramétrique approximatif .fg

La divergence de KL est un sujet de la théorie de l'information et fonctionne intuitivement (mais pas de manière rigoureuse) comme une mesure de la distance entre deux distributions de probabilité. Dans mon explication ci-dessous, je fais référence à ces diapositives de Shuhua Hu. Cette réponse nécessite toujours une citation pour le "résultat clé".

La divergence KL entre le modèle réel et le modèle approximatif est Fgθ

(F,gθ)=F(X)bûche(F(X))X-F(X)bûche(gθ(X))X

Comme la vérité est inconnue, les données sont générées à partir de et l'estimation de vraisemblance maximale permet d'obtenir l'estimateur . Remplacer par dans les équations ci-dessus signifie que le deuxième terme de la formule de divergence KL ainsi que la divergence KL elle-même sont désormais des variables aléatoires. Le "résultat clé" dans les diapositives est que la moyenne du deuxième terme additif par rapport à peut être estimée par une simple fonction de la fonction de vraisemblance (évaluée à la MLE) et , la dimension de : yFθ^(y)θθ^(y)yLkθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

AIC est défini comme deux fois l'attente ci-dessus (HT @Carl), et des valeurs plus petites (plus négatives) correspondent à des divergences de KL estimées plus petites entre la distribution vraie et la distribution modélisée .fgθ^(y)

Ben Ogorek
la source
Comme vous le savez, le terme déviance appliqué à log-vraisemblance est du jargon et est inexact. J'ai omis de parler de cela car seule la monotonie est nécessaire pour que les différences AIC aient une valeur comparative et non une linéarité. Donc, je ne vois pas la pertinence d'essayer trop fort de "visualiser" quelque chose qui n'est probablement pas là, et n'est de toute façon pas nécessaire.
Carl
2
Je comprends votre point de vue selon lequel le dernier paragraphe ajoute une ligne rouge, et je me rends compte que personne n’a besoin d’être convaincu que 2 * x a le même rang que x. Serait-il juste de dire que la quantité est multipliée par 2 "par convention"?
Ben Ogorek
2
Quelque chose comme ca. Personnellement, je voterais pour "est défini comme", car il a été choisi initialement de cette façon. Ou, pour mettre cela dans une perspective temporelle, toute constante qui aurait pu être utilisée, y compris une fois, aurait dû être choisie et respectée, car il n’existait pas de norme de référence pour appliquer une échelle.
Carl
4

Un simple point de vue pour vos deux premières questions est que l'AIC est liée au taux d'erreur attendu hors échantillon du modèle de vraisemblance maximale. Le critère AIC est basé sur la relation (éléments de l’équation d’apprentissage statistique 7.27) où, suivant votre notation, est le nombre de paramètres du modèle dont la valeur de vraisemblance maximale est .

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

Le terme à gauche est le taux "d'erreur" attendu hors échantillon du modèle de vraisemblance maximale , en utilisant le journal de la probabilité comme métrique d'erreur. Le facteur -2 est la correction traditionnelle utilisée pour construire la déviance (utile car dans certaines situations, elle suit une distribution du khi-deux).m={θ}

La main droite comprend le taux "d'erreur" dans l'échantillon estimé à partir de la vraisemblance logarithmique maximisée, plus le terme corrigeant l'optimisme de la vraisemblance logarithmique maximisée, qui permet de surdimensionner quelque peu les données.2km/N

Ainsi, l'AIC est une estimation de l'extérieur de la fréquence d' échantillonnage « Erreur » (déviance) fois .N

Jwimberley
la source