Formule AIC dans Introduction à l'apprentissage statistique

9

Je suis un peu perplexe par une formule présentée dans "Introduction à l'apprentissage statistique" de Hastie. Au chapitre 6, page 212 (sixième impression, disponible ici ), il est indiqué que:

AIC=RSSnσ^2+2dn

Pour les modèles linéaires avec bruit gaussien, étant le nombre de prédicteurs et étant l'estimation de la variance d'erreur. cependant,dσ^

σ^2=RSS(n2)

Ce qui est indiqué au chapitre 3, page 66.

Ce qui impliquerait:

AIC=(n2)n+2dn

Ce qui ne peut pas être vrai. Quelqu'un peut-il signaler ce que je fais de manière incorrecte?

Sue Doh Nimh
la source
À moins que je manque quelque chose, je ne pense pas que le livre puisse être juste.
Glen_b -Reinstate Monica

Réponses:

3

Je pense que vous confondez les deux somme résiduelle de carrés que vous avez. Vous avez un RSS pour estimer le dans la formule, ce RSS est en quelque sorte indépendant du nombre de paramètres, . Ce doit être estimé en utilisant toutes vos covariables, vous donnant une unité d'erreur de base . Vous devez appeler le RSS dans la formule AIC : , ce qui signifie qu'il correspond au modèle avec paramètres ( il peut y avoir de nombreux modèles avec paramètres ). Ainsi, le RSS dans la formule est calculé pour un modèle spécifique, tandis que le RSS pourσ^2pσ^2RSSpiippσ^2 est pour le modèle complet.

Ceci est également noté dans la page précédente, où est introduit pour .σ^2Cp

Le RSS de la formule en AIC n'est donc pas indépendant de , il est calculé pour un modèle donné. Introduire à tout cela revient simplement à avoir une unité de base pour l'erreur, de sorte qu'il existe une comparaison "juste" entre le nombre de paramètres et la réduction de l'erreur. Vous devez comparer le nombre de paramètres à quelque chose qui est mis à l'échelle par rapport à l'ampleur de l'erreur.pσ^2

Si vous ne mettez pas à l'échelle le RSS par l'erreur de base, il se peut que le RSS baisse beaucoup plus que le nombre de variables introduites et vous devenez ainsi plus gourmand en ajoutant plus de variables. Si vous le redimensionnez à une unité, la comparaison avec le nombre de paramètres est indépendante de l'ampleur de l'erreur de base.

Ce n'est pas la manière générale de calculer l'AIC, mais cela se résume essentiellement à quelque chose de similaire dans les cas où il est possible de dériver des versions plus simples de la formule.

Gumeo
la source
Seriez-vous en mesure de fournir une référence où je pourrais en savoir plus sur le raisonnement derrière l'estimation de la variance d'erreur dans ces modèles avec un ensemble total de prédicteurs disponibles par opposition au RSS d'un sous-ensemble? Je vois comment votre réponse répond à cette question, mais je ne sais pas pourquoi il est légitime de le faire en premier lieu.
Sue Doh Nimh
@SueDohNimh Ces diapositives constituent un bon début. Notez que la meilleure estimation pour utilise le modèle complet, introduit pour . L'AIC que vous avez est celui où est connu, mais vous utilisez simplement la meilleure estimation possible. L'estimation de peut être très difficile. Cette discussion est également pertinente. Ceci est également pertinent . σ2Cpσ2σ2
Gumeo
2
Vous devriez également lire l'article original d'Akaike, je pense que c'est la meilleure source, il contient plus de 15 000 citations à ce jour. Voilà , vous devriez pouvoir le trouver quelque part en ligne ou y accéder depuis une université.
Gumeo
5

Malheureusement, ce sera une réponse plutôt insatisfaisante ...

Tout d'abord, généralement pour le calcul de l'AIC, vous utiliserez l'estimation du maximum de vraisemblance de qui serait biaisée. Donc, cela réduirait à et finalement le calcul que vous effectuez serait réduit à . Deuxièmement, je vous renvoie à l'article Wikipedia sur l'AIC, en particulier dans la section des cas d'équivariance . Comme vous le voyez là , il est clair que la plupart des dérivations omettent une constante . Cette constante n'est pas pertinente aux fins de comparaison de modèles, elle est donc omise. Il est assez fréquent de voir des dérivations contradictoires de l'AIC en raison exactement de ce problème. Par exemple , l'analyse statistique multivariée appliquée de Johnson & Wichern , 6e édition donne AIC comme:σ2σ2=RSSn1+2dnCnlog(RSSN)+2d (chap. 7.6), ce qui ne correspond clairement pas à la définition de James et al. vous utilisez. Aucun des deux livres n'est faux en soi . Juste des gens qui utilisent différentes constantes. Dans le cas de James et al. livre, il semble qu'ils ne font pas allusion à ce point. Dans d'autres livres, par exemple. Ravishanker et Dey's A First Course in Linear Model Theory ceci est encore plus profond comme l'écrivent les auteurs:

AIC(p)=2l(y;X,β^ML,σ^ML2)+2p=Nlog(σ^ML2)/2N/2+2p(7.5.10)

ce qui est intéressant, il ne peut pas non plus être vrai simultanément. Comme Burnham et Anderson (1998) Chapt 2.2 écrivent: " Dans le cas particulier de l'estimation des moindres carrés (LS) avec des erreurs normalement distribuées, et en dehors d'une constante additive arbitraire, l'AIC peut être exprimé comme une simple fonction de la somme résiduelle des carrés . "; B&A suggère la même variante AIC que J&W utilise. Ce qui vous gâche, c'est cette constante particulière (et le fait que vous n'utilisiez pas l'estimation ML pour les résidus.) En regardant la reconnaissance des formes et l'apprentissage automatique de M. Bishop (2006), je trouve une définition encore plus contradictoire:

AIC=l(D|wML)M(1.73)

ce qui est drôle car il omet non seulement le multiplicateur du papier d'origine mais va également de l'avant pour faire tomber les signes afin qu'il puisse utiliser la sélection basée sur AIC comme problème de maximisation ...

Je recommanderais de m'en tenir à l'ancienne définition si vous voulez faire des dérivations théoriques. C'est celui qu'Akaike déclare dans son article original. Toutes les autres formules intermédiaires ont tendance à être désordonnées et / ou à faire des hypothèses implicites. Si c'est une consolation, vous "n'avez rien fait de mal".2log(L)+2p

usεr11852
la source
Ah! Eh bien c'est en effet un peu anticlimatique mais merci. Cependant, implicitement, l'AIC de Hastie augmente à la fois linéairement en d et n'est pas fonction du tout de la somme des résidus au carré! Les autres définitions que vous avez fournies varient à tout le moins en fonction des erreurs d'ensemble de formation, tandis que l'AIC de Hastie impliquerait que le modèle optimal serait juste un avec 0 prédicteurs. Y a-t-il un moyen de marier ça?
Sue Doh Nimh
1
Désolé, je ne sais pas pourquoi ils donnent cette formule. Habituellement, un impliqué quelque part. Dans le texte, ils ne travaillent pas beaucoup autour d'AIC et ils se concentrent sur le de Mallow, donc je ne serai pas surpris s'ils ont fait des hypothèses simplificatrices. En général, ce chapitre semble utiliser des conventions un peu étranges. Le marier semble équivaloir à abandonner plus ou moins les logarithmes. Ils semblent également favoriser un multiplicateur ; Je soupçonne que cela est fait pour rendre la chose plus similaire à . BTW, c'est le livre de James . Hastie est un universitaire incroyable, mais il est le troisième auteur. logCp1NCp
usεr11852
Je suis arrivé aux mêmes conclusions que vous, en lisant le célèbre livre de Hastie / Tibshirani "Les éléments de l'apprentissage statistique" (p.230-233), où les définitions de AIC / BIC sont très similaires à leurs définitions données dans "Introduction à la statistique apprentissage en R ". Donc, Hastie est un universitaire incroyable, mais il n'est pas si bon pour définir AIC / BIC =).
Rodvi