Paradoxe dans la sélection des modèles (AIC, BIC, pour expliquer ou prédire?)

18

Après avoir lu "To Explain or to Predict" de Galit Shmueli (2010), je suis perplexe face à une apparente contradiction. Il y a trois prémisses,

  1. Choix du modèle basé sur AIC ou BIC (fin de la page 300 - début de la page 301): en termes simples, l'AIC doit être utilisé pour sélectionner un modèle destiné à la prédiction tandis que le BIC doit être utilisé pour sélectionner un modèle pour l' explication . De plus (pas dans l'article ci-dessus), nous savons que dans certaines conditions, BIC sélectionne le vrai modèle parmi l'ensemble des modèles candidats; le vrai modèle est ce que nous recherchons dans la modélisation explicative (fin de la p. 293).
  2. Arithmétique simple: AIC sélectionnera un modèle plus grand que BIC pour les échantillons de taille 8 ou plus (satisfaisant raison des pénalités de complexité différentes entre AIC et BIC).ln(n)>2
  3. Le «vrai» modèle (c'est-à-dire le modèle avec les régresseurs corrects et la forme fonctionnelle correcte mais les coefficients imparfaitement estimés) n'est peut-être pas le meilleur modèle de prédiction (p. 307): un modèle de régression avec un prédicteur manquant peut être un meilleur modèle de prévision - l'introduction d'un biais dû au prédicteur manquant peut être surpondérée par la réduction de la variance due à l'imprécision de l'estimation.

Les points 1. et 2. suggèrent que des modèles plus grands peuvent être meilleurs pour la prévision que des modèles plus parcimonieux. Pendant ce temps, le point 3. donne un exemple opposé où un modèle plus parcimonieux est meilleur pour la prédiction qu'un modèle plus grand. Je trouve cela déroutant.

Des questions:

  1. Comment l'apparente contradiction entre les points {1. et 2.} et 3. être expliqué / résolu?
  2. À la lumière du point 3., pourriez-vous expliquer de manière intuitive pourquoi et comment un modèle plus grand sélectionné par AIC est en fait meilleur pour la prédiction qu'un modèle plus parcimonieux sélectionné par BIC?
Richard Hardy
la source
2
Je ne comprends pas le paradoxe / la contradiction. AIC est efficace (minimise asymptotiquement l'erreur de prédiction attendue) et BIC est cohérent (sélectionne asymptotiquement le vrai ordre). Le point 3) indique que le biais peut être surpondéré par la variance. Il n'y a évidemment aucune garantie que l'un est meilleur que l'autre dans un certain échantillon. Votre "paradoxe" semble donc être que pour un échantillon donné, l'AIC n'est peut-être pas le meilleur pour la prédiction, ce qui n'est pas surprenant. Pour votre Q2: si l'augmentation du biais induite par le modèle plus petit du BIC est plus grande que l'augmentation de la variance dans le plus grand AIC, l'AIC est mieux.
hejseb
2
Je suggérerais que vous regardiez les premiers chapitres de "Sélection de modèles et moyennage de modèles" de Nils Hjort et Gerda Claeskens, peut-être que cela clarifiera les choses.
hejseb

Réponses:

1

Ils ne doivent pas être pris dans le même contexte; les points 1 et 2 ont des contextes différents. Pour AIC et BIC, on explore d'abord quelle combinaison de paramètres dans quel nombre donne les meilleurs indices (certains auteurs ont des crises d'épilepsie lorsque j'utilise l' index de motsdans ce contexte. Ignorez-les ou recherchez l'index dans le dictionnaire.) Au point 2, AIC est le modèle le plus riche, où plus riche signifie sélectionner des modèles avec plus de paramètres, parfois seulement, car souvent le modèle AIC optimal est le même nombre de modèles de paramètres que BIC le sélection. Autrement dit, si AIC et BIC sélectionnent des modèles ayant le même nombre de paramètres, l'affirmation est que l'AIC sera meilleure pour la prédiction que BIC. Cependant, l'inverse pourrait se produire si le BIC atteint son maximum avec un modèle de paramètres moins sélectionné (mais sans garantie). Sober (2002) a conclu que l'AIC mesure la précision prédictive tandis que le BIC mesure la qualité de l'ajustement, où la précision prédictive peut signifier prédire y en dehors de la plage de valeurs extrêmes de x. À l'extérieur, fréquemment, un AIC moins optimal ayant des paramètres faiblement prédictifs abandonnés prédira mieux les valeurs extrapolées qu'un indice AIC optimal à partir de plus de paramètres dans son modèle sélectionné. Je note en passant que l'AIC et le ML n'éliminent pas la nécessité de tests d'erreur d'extrapolation, qui est un test distinct pour les modèles. Cela peut être fait en retenant les valeurs extrêmes de l'ensemble "formation" et en calculant l'erreur entre le modèle "post-formation" extrapolé et les données retenues.

F(X)-yrésiduels (pensez à plus de résidus négatifs d'un côté et à plus de résidus positifs de l'autre), réduisant ainsi l'erreur totale. Donc, dans ce cas, nous demandons la meilleure valeur y étant donné une valeur x, et pour AIC, nous demandons plus étroitement une meilleure relation fonctionnelle entre x et y. Une différence entre ceux-ci est, par exemple, que le BIC, les autres choix de paramètres étant égaux, aura un meilleur coefficient de corrélation entre le modèle et les données, et l'AIC aura une meilleure erreur d'extrapolation mesurée en tant qu'erreur de valeur y pour une valeur x extrapolée donnée.

Le point 3 est une déclaration parfois sous certaines conditions

  • σ


  • β2

  • lorsque les prédicteurs sont fortement corrélés; et

  • lorsque la taille de l'échantillon est petite ou que la plage de variables omises est petite.

Dans la pratique, une forme correcte d'une équation ne signifie pas que l'adaptation à celle-ci produira les valeurs de paramètres correctes à cause du bruit, et plus il y aura de bruit, plus on sera de fous. La même chose se produit avec R 2 contre R 2 ajusté2222

Je m'empresse de souligner que ces déclarations sont optimistes. En règle générale, les modèles sont incorrects, et souvent un meilleur modèle appliquera une norme qui ne peut pas être utilisée avec AIC ou BIC, ou la mauvaise structure résiduelle est supposée pour leur application, et des mesures alternatives sont nécessaires. Dans mon travail, c'est toujours le cas.

Carl
la source
1
Je ne suis pas sûr que vous répondiez aux questions. Je suis conscient des limites générales des critères d'information, mais ce n'est pas ce que je demande. De plus, je ne comprends pas votre point de vue si AIC et BIC ont le même nombre de paramètres, alors l'affirmation est que AIC sera meilleur pour la prédiction que BIC . Lorsque les modèles alternatifs ont le même nombre de paramètres, la comparaison AIC et BIC se résume à comparer les probabilités, et AIC et BIC sélectionneront la même alternative. Pourriez-vous également expliquer ce que vous entendez par un meilleur modèle qui appliquera une norme qui ne peut pas être utilisée avec l'AIC ou le BIC ?
Richard Hardy
Suite: Tant que nous avons la probabilité et les degrés de liberté, nous pouvons calculer AIC et BIC.
Richard Hardy
@RichardHardy True: Tant que nous avons la probabilité et les degrés de liberté, nous pouvons calculer AIC et BIC. Cependant, le calcul sera sous-optimal et trompeur si les résidus sont Student-T et nous n'avons pas utilisé AIC et BIC pour Student's-T. Contrairement à Student's-T, il existe des distributions de résidus pour lesquelles ML peut être non publié, par exemple Gamma, Beta etc.
Carl
Merci pour la clarification! Je pense qu'il devrait exister une réponse aux questions ci-dessus qui soit assez simple et générale. Plus précisément, je ne pense pas que cela doive impliquer des cas "laids" et des défaillances d'AIC et de BIC. Au contraire, je pense qu'il devrait y avoir un cas assez basique qui pourrait illustrer pourquoi le paradoxe n'est qu'apparent plutôt que réel. En même temps, votre deuxième paragraphe semble aller dans la direction opposée. Non pas qu'il ne serait pas utile en soi, mais je crains qu'il ne nous détourne des vraies questions sous-jacentes ici.
Richard Hardy
@RichardHardy Souvent, la question pratique est insoluble pour AIC. Par exemple, comparaison de modèles identiques ou différents avec des normes et / ou des transformations de données différentes ou analyse de normes compliquées, par exemple, régularisation de Tikhonov réduisant les erreurs d'un paramètre dérivé, inverses généraux, etc. Cela doit également être mentionné de peur que quelqu'un utilise l'AIC , BIC incorrectement.
Carl