Après avoir lu "To Explain or to Predict" de Galit Shmueli (2010), je suis perplexe face à une apparente contradiction. Il y a trois prémisses,
- Choix du modèle basé sur AIC ou BIC (fin de la page 300 - début de la page 301): en termes simples, l'AIC doit être utilisé pour sélectionner un modèle destiné à la prédiction tandis que le BIC doit être utilisé pour sélectionner un modèle pour l' explication . De plus (pas dans l'article ci-dessus), nous savons que dans certaines conditions, BIC sélectionne le vrai modèle parmi l'ensemble des modèles candidats; le vrai modèle est ce que nous recherchons dans la modélisation explicative (fin de la p. 293).
- Arithmétique simple: AIC sélectionnera un modèle plus grand que BIC pour les échantillons de taille 8 ou plus (satisfaisant raison des pénalités de complexité différentes entre AIC et BIC).
- Le «vrai» modèle (c'est-à-dire le modèle avec les régresseurs corrects et la forme fonctionnelle correcte mais les coefficients imparfaitement estimés) n'est peut-être pas le meilleur modèle de prédiction (p. 307): un modèle de régression avec un prédicteur manquant peut être un meilleur modèle de prévision - l'introduction d'un biais dû au prédicteur manquant peut être surpondérée par la réduction de la variance due à l'imprécision de l'estimation.
Les points 1. et 2. suggèrent que des modèles plus grands peuvent être meilleurs pour la prévision que des modèles plus parcimonieux. Pendant ce temps, le point 3. donne un exemple opposé où un modèle plus parcimonieux est meilleur pour la prédiction qu'un modèle plus grand. Je trouve cela déroutant.
Des questions:
- Comment l'apparente contradiction entre les points {1. et 2.} et 3. être expliqué / résolu?
- À la lumière du point 3., pourriez-vous expliquer de manière intuitive pourquoi et comment un modèle plus grand sélectionné par AIC est en fait meilleur pour la prédiction qu'un modèle plus parcimonieux sélectionné par BIC?
forecasting
model-selection
feature-selection
aic
bic
Richard Hardy
la source
la source
Réponses:
Ils ne doivent pas être pris dans le même contexte; les points 1 et 2 ont des contextes différents. Pour AIC et BIC, on explore d'abord quelle combinaison de paramètres dans quel nombre donne les meilleurs indices (certains auteurs ont des crises d'épilepsie lorsque j'utilise l' index de motsdans ce contexte. Ignorez-les ou recherchez l'index dans le dictionnaire.) Au point 2, AIC est le modèle le plus riche, où plus riche signifie sélectionner des modèles avec plus de paramètres, parfois seulement, car souvent le modèle AIC optimal est le même nombre de modèles de paramètres que BIC le sélection. Autrement dit, si AIC et BIC sélectionnent des modèles ayant le même nombre de paramètres, l'affirmation est que l'AIC sera meilleure pour la prédiction que BIC. Cependant, l'inverse pourrait se produire si le BIC atteint son maximum avec un modèle de paramètres moins sélectionné (mais sans garantie). Sober (2002) a conclu que l'AIC mesure la précision prédictive tandis que le BIC mesure la qualité de l'ajustement, où la précision prédictive peut signifier prédire y en dehors de la plage de valeurs extrêmes de x. À l'extérieur, fréquemment, un AIC moins optimal ayant des paramètres faiblement prédictifs abandonnés prédira mieux les valeurs extrapolées qu'un indice AIC optimal à partir de plus de paramètres dans son modèle sélectionné. Je note en passant que l'AIC et le ML n'éliminent pas la nécessité de tests d'erreur d'extrapolation, qui est un test distinct pour les modèles. Cela peut être fait en retenant les valeurs extrêmes de l'ensemble "formation" et en calculant l'erreur entre le modèle "post-formation" extrapolé et les données retenues.
Le point 3 est une déclaration parfois sous certaines conditions
lorsque les prédicteurs sont fortement corrélés; et
lorsque la taille de l'échantillon est petite ou que la plage de variables omises est petite.
Dans la pratique, une forme correcte d'une équation ne signifie pas que l'adaptation à celle-ci produira les valeurs de paramètres correctes à cause du bruit, et plus il y aura de bruit, plus on sera de fous. La même chose se produit avec R 2 contre R 2 ajusté2 2 2 2
Je m'empresse de souligner que ces déclarations sont optimistes. En règle générale, les modèles sont incorrects, et souvent un meilleur modèle appliquera une norme qui ne peut pas être utilisée avec AIC ou BIC, ou la mauvaise structure résiduelle est supposée pour leur application, et des mesures alternatives sont nécessaires. Dans mon travail, c'est toujours le cas.
la source