Je suis un peu perplexe par une formule présentée dans "Introduction à l'apprentissage statistique" de Hastie. Au chapitre 6, page 212 (sixième impression, disponible ici ), il est indiqué que:
Pour les modèles linéaires avec bruit gaussien, étant le nombre de prédicteurs et étant l'estimation de la variance d'erreur. cependant,
Ce qui est indiqué au chapitre 3, page 66.
Ce qui impliquerait:
Ce qui ne peut pas être vrai. Quelqu'un peut-il signaler ce que je fais de manière incorrecte?
regression
machine-learning
aic
Sue Doh Nimh
la source
la source
Réponses:
Je pense que vous confondez les deux somme résiduelle de carrés que vous avez. Vous avez un RSS pour estimer le dans la formule, ce RSS est en quelque sorte indépendant du nombre de paramètres, . Ce doit être estimé en utilisant toutes vos covariables, vous donnant une unité d'erreur de base . Vous devez appeler le RSS dans la formule AIC : , ce qui signifie qu'il correspond au modèle avec paramètres ( il peut y avoir de nombreux modèles avec paramètres ). Ainsi, le RSS dans la formule est calculé pour un modèle spécifique, tandis que le RSS pourσ^2 p σ^2 RSSpi i p p σ^2 est pour le modèle complet.
Ceci est également noté dans la page précédente, où est introduit pour .σ^2 Cp
Le RSS de la formule en AIC n'est donc pas indépendant de , il est calculé pour un modèle donné. Introduire à tout cela revient simplement à avoir une unité de base pour l'erreur, de sorte qu'il existe une comparaison "juste" entre le nombre de paramètres et la réduction de l'erreur. Vous devez comparer le nombre de paramètres à quelque chose qui est mis à l'échelle par rapport à l'ampleur de l'erreur.p σ^2
Si vous ne mettez pas à l'échelle le RSS par l'erreur de base, il se peut que le RSS baisse beaucoup plus que le nombre de variables introduites et vous devenez ainsi plus gourmand en ajoutant plus de variables. Si vous le redimensionnez à une unité, la comparaison avec le nombre de paramètres est indépendante de l'ampleur de l'erreur de base.
Ce n'est pas la manière générale de calculer l'AIC, mais cela se résume essentiellement à quelque chose de similaire dans les cas où il est possible de dériver des versions plus simples de la formule.
la source
Malheureusement, ce sera une réponse plutôt insatisfaisante ...
Tout d'abord, généralement pour le calcul de l'AIC, vous utiliserez l'estimation du maximum de vraisemblance de qui serait biaisée. Donc, cela réduirait à et finalement le calcul que vous effectuez serait réduit à . Deuxièmement, je vous renvoie à l'article Wikipedia sur l'AIC, en particulier dans la section des cas d'équivariance . Comme vous le voyez là , il est clair que la plupart des dérivations omettent une constante . Cette constante n'est pas pertinente aux fins de comparaison de modèles, elle est donc omise. Il est assez fréquent de voir des dérivations contradictoires de l'AIC en raison exactement de ce problème. Par exemple , l'analyse statistique multivariée appliquée de Johnson & Wichern , 6e édition donne AIC comme:σ2 σ2=RSSn 1+2dn C nlog(RSSN)+2d (chap. 7.6), ce qui ne correspond clairement pas à la définition de James et al. vous utilisez. Aucun des deux livres n'est faux en soi . Juste des gens qui utilisent différentes constantes. Dans le cas de James et al. livre, il semble qu'ils ne font pas allusion à ce point. Dans d'autres livres, par exemple. Ravishanker et Dey's A First Course in Linear Model Theory ceci est encore plus profond comme l'écrivent les auteurs:
ce qui est intéressant, il ne peut pas non plus être vrai simultanément. Comme Burnham et Anderson (1998) Chapt 2.2 écrivent: " Dans le cas particulier de l'estimation des moindres carrés (LS) avec des erreurs normalement distribuées, et en dehors d'une constante additive arbitraire, l'AIC peut être exprimé comme une simple fonction de la somme résiduelle des carrés . "; B&A suggère la même variante AIC que J&W utilise. Ce qui vous gâche, c'est cette constante particulière (et le fait que vous n'utilisiez pas l'estimation ML pour les résidus.) En regardant la reconnaissance des formes et l'apprentissage automatique de M. Bishop (2006), je trouve une définition encore plus contradictoire:
ce qui est drôle car il omet non seulement le multiplicateur du papier d'origine mais va également de l'avant pour faire tomber les signes afin qu'il puisse utiliser la sélection basée sur AIC comme problème de maximisation ...
Je recommanderais de m'en tenir à l'ancienne définition si vous voulez faire des dérivations théoriques. C'est celui qu'Akaike déclare dans son article original. Toutes les autres formules intermédiaires ont tendance à être désordonnées et / ou à faire des hypothèses implicites. Si c'est une consolation, vous "n'avez rien fait de mal".−2log(L)+2p
la source