Je gère un modèle logistique. L'ensemble de données du modèle réel comporte plus de 100 variables, mais je choisis un ensemble de données de test dans lequel il y a environ 25 variables. Avant cela, j'ai également créé un ensemble de données contenant 8 à 9 variables. On me dit que les valeurs AIC et SC peuvent être utilisées pour comparer le modèle. J'ai observé que le modèle avait des valeurs SC plus élevées même lorsque la variable avait des valeurs p faibles (ex. 0053). À mon intuition, un modèle qui a des variables ayant un bon niveau de signification devrait entraîner de faibles valeurs SC et AIC. Mais cela ne se produit pas. Quelqu'un peut-il clarifier cela. En bref, je veux poser les questions suivantes:
- Le nombre de variables a-t-il quelque chose à voir avec SC AIC?
- Dois-je me concentrer sur les valeurs p ou les faibles valeurs SC AIC?
- Quels sont les moyens typiques de réduire les valeurs SC AIC?
la source
Grouper SC et AIC ensemble est faux . Ce sont des choses très différentes, même si les gens en abusent fortement. L'AIC est significatif lorsque vous prévoyez des choses, l'utilisation de SC dans ce scénario peut conduire (pas toujours) à de mauvais résultats. De même, si vous êtes intéressé à faire une sélection de modèle avec le principe de parcimonie (rasoir d'Occam), SC est mieux. Je ne veux pas entrer dans les détails théoriques, mais en un mot: SC - bon pour les modèles parcimonieux lorsque vous voulez quelque chose d'équivalent au modèle le plus simple possible pour expliquer vos données, AIC - Quand vous voulez prédire. AIC ne suppose pas que votre vrai modèle se trouve dans l'espace modèle, comme le fait SC.
Deuxièmement, l'utilisation de valeurs de p et de critères d'information ensemble peut également être trompeuse, comme l'explique chl .
la source