Sélection de la spline df dans un problème de modèle de Poisson additif général

9

J'ai ajusté certaines données de séries chronologiques à l'aide d'un modèle additif général de Poisson à l'aide de SAS PROC GAM. De manière générale, j'ai vu sa procédure de validation croisée généralisée intégrée générer au moins un «point de départ» décent pour ma spline unique, qui est une fonction non linéaire du temps avec un terme paramétrique unique (celui que je suis réellement intéressé par).

Jusqu'à présent, cela a fonctionné plutôt nageant, à l'exception de l'un de mes ensembles de données. Il y a 132 observations dans cet ensemble de données, et GCV suggère une spline de 128 degrés de liberté. Cela semble ... faux. Très mal. Plus important encore, ce n'est pas du tout stable. J'ai essayé une deuxième approche, en utilisant quelque chose comme un critère de «changement d'estimation» pour cesser d'ajouter des degrés de liberté lorsque l'estimation du terme paramétrique cesse de changer, car pourquoi continuer à ajouter du contrôle si rien n'est différent?

Le problème est que l'estimation n'est pas du tout stable. J'ai essayé les degrés de liberté suivants, et comme vous pouvez le voir, le terme paramétrique rebondit énormément:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Je n'ai aucune intuition sur ce que je devrais utiliser en termes de df pour ce bit de données particulier. D'autres idées sur la façon de choisir un df? Dois-je regarder la signification de la spline?

En faisant un peu plus de recherche entre df = 10 et df = 15, il semble que df = 12 soit le plus proche de l'estimation générée par 128 et se situe toujours dans la plage des "degrés de liberté raisonnables". Avec le terme linéaire, l'ordonnée à l'origine et le terme paramétrique unique, cela ressemble à un modèle assez fortement saturé. Est-il justifié de simplement choisir 12?

En tant que deuxième mise à jour, changer le lissage de spline(t)à loess(t)se traduit par des estimations df beaucoup plus correctes - dois-je simplement passer au lissage de Loess?

Fomite
la source
Dans votre ensemble de données avec 132 observations, y a-t-il un terme de comptage et de décalage associé, ce qui implique qu'il s'agit en fait d'un ensemble de données pondéré avec beaucoup plus de 132 observations? En raison de la relation de variance moyenne dans les VR de Poisson, de grands dénombrements peuvent conduire à des propriétés de «sélection de modèle» qui sont défavorables en raison de la «grande taille de l'échantillon».
AdamO
L'ensemble de données comprend 132 semaines de données, modélisées sous forme de nombres = termes du modèle + log (temps-personne) en tant que décalage. Les chiffres ne vont jamais particulièrement haut - mais il y a un bon nombre de zéros.
Fomite

Réponses:

5

λλλ

Wood (2011) montre également que l'AICc n'apporte pas beaucoup d' avantages supplémentaires par rapport au GCV pour les bases de rang faible à intermédiaire utilisées pour les fonctions lisses.

λ

Wood (2011) décrit des procédures d'estimation REML et ML qui sont à la fois rapides et stables, ce qu'il montre s'améliore par rapport aux approches REML (ML) existantes en termes de convergence. Ces idées sont disponibles dans Simon mgcv paquet pour R .

Comme Wood (2011) est derrière un mur payant, j'inclus une copie d'une image similaire (les résultats AICc ne sont pas présentés ici) tirée d'un ensemble de diapositives de Simon, disponible sur son site Web , sur les méthodes de sélection de la fluidité {PDF}. La figure de la diapositive 10 est illustrée ci-dessous

entrez la description de l'image ici

λλλ

y=f(x)+ε

Comme le mentionnent @ M.Berk et @BrendenDufault, un degré de subjectivité peut être requis lors de la configuration de la base de spline, en termes de sélection d'une dimension de base appropriée à partir de laquelle s'adapter au GAM. Mais la sélection de douceur REML s'est avérée raisonnablement robuste dans mon expérience dans une gamme d'applications GAM utilisant les méthodes de Wood.

Wood, SN (2011) Estimation rapide et stable de la probabilité maximale restreinte et de la probabilité marginale des modèles linéaires généralisés semi-paramétriques . J. Royal Statistical Society B 73 (Partie 1), 3--6.

Gavin Simpson
la source
@EpiGrad Bienvenue. Désolé d'avoir manqué la question à l'époque; Au cours de la dernière année ou deux, j'ai eu du mal avec des situations similaires à la vôtre et j'ai lu les articles de Simon Wood à ce sujet et la sélection de fonctionnalités à plusieurs reprises. Heureux d'avoir pu rappeler certains détails pour aider.
Gavin Simpson
3

Je pense que votre meilleur pari se situe en dehors des algorithmes de lissage; considérer la parcimonie du modèle.

Vous y faites allusion, mais je pense que cela doit devenir votre principal critère de sélection. Demandez-vous combien de «virages» semblent raisonnables en fonction de l'étiologie / causalité des processus modélisés. Représentez graphiquement les splines ajustées avec l' plots=components(clm)énoncé et évaluez visuellement l'ajustement. Peut-être que les splines hautes DF racontent une histoire similaire à celle des splines basses DF, sauf plus bruyamment. Dans ce cas, choisissez un ajustement DF faible.

Après tout, les modèles GAM sont destinés à être exploratoires.

Ayant moi-même utilisé l' option gcv , je m'interroge sur ses performances dans les conditions de Poisson, les données rares, etc. Peut-être qu'une étude de simulation est due ici.

Brenden Dufault
la source
2

J'ai tapé la réponse suivante et j'ai réalisé que je ne sais pas si c'est applicable à la régression de Poisson avec laquelle je n'ai aucune expérience. Peut-être que les gens peuvent répondre à cela avec quelques commentaires.


Personnellement, j'aime les conseils de BW Silverman (1985) "Certains aspects de l'approche de lissage des splines pour l'ajustement de la courbe de régression non paramétrique (avec discussion)." (Disponible sans abonnement ici ): essayez une gamme de paramètres de lissage et choisissez celui qui est le plus visuellement attrayant.

Comme il le fait également remarquer à juste titre dans le même article, même si une approche subjective peut être préférée, il existe toujours le besoin de méthodes automatiques. Cependant, le GCV est généralement un mauvais choix car il a tendance à sous-lisser. Voir, par exemple, Hurvich et al (1998) «Sélection des paramètres de lissage dans la régression non paramétrique à l'aide d'un critère d'information Akaike amélioré» (disponible sans abonnement ici ). Dans le même document, ils proposent un nouveau critère qui peut atténuer votre problème, l'AIC corrigé qui inclut une petite correction de la taille de l'échantillon. Vous pouvez trouver la description Wikipedia de AICc plus facile à suivre que le papier. L'article de Wikipedia contient également de bons conseils de Burnham & Anderson (c'est-à-dire utiliser AICc plutôt que AIC quelle que soit la taille de l'échantillon).

En résumé, mes suggestions seraient, par ordre de préférence:

  1. Sélectionnez le paramètre de lissage manuellement via une évaluation visuelle
  2. Utilisez l'AIC corrigé (AICc) plutôt que le GCV
  3. Utilisez l'AIC standard
M. Berk
la source