Je me rends compte que cela peut être une question potentiellement large, mais je me demandais s'il existe des hypothèses généralisables qui indiquent l'utilisation d'un GAM (modèle additif généralisé) par rapport à un GLM (modèle linéaire généralisé)?
Quelqu'un m'a récemment dit que les GAM ne devraient être utilisés que lorsque je suppose que la structure de données est "additive", c'est-à-dire que je m'attends à des additions de x pour prédire y. Une autre personne a souligné qu'un GAM effectue un type d'analyse de régression différent d'un GLM et qu'un GLM est préféré lorsque la linéarité peut être supposée.
Dans le passé, j'ai utilisé un GAM pour les données écologiques, par exemple:
- série temporelle continue
- lorsque les données n'avaient pas de forme linéaire
- J'ai eu plusieurs x pour prédire mon y que je pensais avoir une interaction non linéaire que je pouvais visualiser en utilisant des "graphiques de surface" avec un test statistique
Évidemment, je n'ai pas une grande compréhension de ce qu'un GAM fait différemment d'un GLM. Je pense que c'est un test statistique valide (et je constate une augmentation de l'utilisation des GAM, au moins dans les revues écologiques), mais j'ai besoin de mieux savoir quand son utilisation est indiquée par rapport à d'autres analyses de régression.
Réponses:
la source
mgcv
fait beaucoup de choses avecglm
lesquelles vous ne pouvez pas faire , mais cela aurait également pu être fait dans ce cadre ...mgcv
)?Je voudrais souligner que les GAM sont beaucoup plus flexibles que les GLM, et ont donc besoin de plus de soin dans leur utilisation. Un pouvoir accru s'accompagne d'une plus grande responsabilité.
Vous mentionnez leur utilisation en écologie, ce que j'ai également remarqué. J'étais au Costa Rica et j'ai vu une sorte d'étude dans une forêt tropicale où certains étudiants diplômés avaient jeté des données dans un GAM et accepté ses lissages complexes et fous parce que le logiciel le disait. C'était assez déprimant, à l'exception du fait humoristique / admirable qu'ils ont rigoureusement inclus une note de bas de page qui documentait le fait qu'ils avaient utilisé un GAM et les lissoirs de haut niveau qui en ont résulté.
Vous n'avez pas besoin de comprendre exactement comment fonctionnent les GAM pour les utiliser, mais vous devez vraiment penser à vos données, au problème à résoudre, à la sélection automatisée de paramètres de votre logiciel comme des commandes plus fluides, vos choix (quels fluides vous spécifiez, interactions, si un lissage est justifié, etc.), et la plausibilité de vos résultats.
Faites beaucoup de tracés et regardez vos courbes de lissage. Deviennent-ils fous dans les zones avec peu de données? Que se passe-t-il lorsque vous spécifiez un lissage d'ordre inférieur ou supprimez complètement le lissage? Un degré 7 plus lisse est-il réaliste pour cette variable, est-il sur-adapté malgré les assurances qu'il valide de manière croisée ses choix? Avez-vous suffisamment de données? Est-ce de haute qualité ou bruyant?
J'aime GAMS et je pense qu'ils sont sous-estimés pour l'exploration de données. Ils sont juste super flexibles et si vous vous autorisez à la science sans rigueur, ils vous emmèneront plus loin dans le désert statistique que les modèles plus simples comme les GLM.
la source
mgcv
gèrent mes données. J'essaie d'être parcimonieux avec mes paramètres et je vérifie dans quelle mesure les valeurs prédites correspondent à mes données. vos commentaires sont un bon rappel pour être un peu plus rigoureux - et peut-être enfin obtenir le livre de Simon Woods!Je n'ai pas la réputation de simplement ajouter un commentaire. Je suis tout à fait d'accord avec le commentaire de Wayne: un pouvoir accru s'accompagne d'une plus grande responsabilité . Les GAM peuvent être très flexibles et nous obtenons / voyons souvent des lisseurs complexes et fous . Ensuite, je recommande fortement aux chercheurs de restreindre les degrés de liberté (nombre de nœuds) des fonctions lisses et de tester différentes structures de modèle (interactions / pas d'interactions, etc.).
Les GAM peuvent être envisagés entre des approches basées sur un modèle (bien que la frontière soit floue, j'inclurais le GLM dans ce groupe) et des approches basées sur des données (par exemple, les réseaux de neurones artificiels ou les forêts aléatoires qui supposent des effets de variables non linéaires en interaction complète). En conséquence, je ne suis pas totalement d'accord avec Hastie et Tibshirani car les GAM ont encore besoin d'un travail de détective (j'espère que personne ne me tue pour l'avoir dit).
D'un point de vue écologique, je recommanderais d'utiliser l' arnaque du package R pour éviter ces lisseurs complexes complexes et peu fiables . Il a été développé par Natalya Pya et Simon Wood et permet de contraindre les courbes lisses aux formes souhaitées (par exemple unimodales ou monotones), même pour des interactions bidirectionnelles. Je pense que GLM devient une alternative mineure après avoir contraint la forme des fonctions lisses, mais ce n'est que mon opinion personnelle.
Pya, N., Wood, SN, 2015. Modèles additifs à contrainte de forme. Stat. Comput. 25 (3), 543–559. 10.1007 / s11222-013-9448-7
la source