Quand utiliser un GAM vs GLM

15

Je me rends compte que cela peut être une question potentiellement large, mais je me demandais s'il existe des hypothèses généralisables qui indiquent l'utilisation d'un GAM (modèle additif généralisé) par rapport à un GLM (modèle linéaire généralisé)?

Quelqu'un m'a récemment dit que les GAM ne devraient être utilisés que lorsque je suppose que la structure de données est "additive", c'est-à-dire que je m'attends à des additions de x pour prédire y. Une autre personne a souligné qu'un GAM effectue un type d'analyse de régression différent d'un GLM et qu'un GLM est préféré lorsque la linéarité peut être supposée.

Dans le passé, j'ai utilisé un GAM pour les données écologiques, par exemple:

  • série temporelle continue
  • lorsque les données n'avaient pas de forme linéaire
  • J'ai eu plusieurs x pour prédire mon y que je pensais avoir une interaction non linéaire que je pouvais visualiser en utilisant des "graphiques de surface" avec un test statistique

Évidemment, je n'ai pas une grande compréhension de ce qu'un GAM fait différemment d'un GLM. Je pense que c'est un test statistique valide (et je constate une augmentation de l'utilisation des GAM, au moins dans les revues écologiques), mais j'ai besoin de mieux savoir quand son utilisation est indiquée par rapport à d'autres analyses de régression.

mluerig
la source
Les GAM sont utilisés lorsque le prédicteur linéaire dépend linéairement de fonctions lisses inconnues de certaines variables du prédicteur.
user2974951
1
La distinction est floue car vous pouvez représenter des covariables numériques, par exemple par une spline également dans un GLM.
Michael M
3
Bien que la distinction soit floue, les gam peuvent également représenter des interactions de la même manière que l'additivité si stricte de glm n'est pas nécessaire, la grande différence réside dans l'inférence: les gam ont besoin de méthodes spéciales, car l'estimation ne se fait pas par projection, mais par lissage. Ce que cela implique dans la pratique, je ne comprends pas.
kjetil b halvorsen

Réponses:

14

nje=1nβjeXjeje=1nj=1qβjesj(Xje)s1(),,sq()qest la dimension de base. En combinant les fonctions de base, les GAM peuvent représenter un grand nombre de relations fonctionnelles (pour ce faire, elles reposent sur l'hypothèse que la vraie relation est susceptible d'être lisse, plutôt que ondulante). Ils sont essentiellement une extension des GLM, mais ils sont conçus d'une manière qui les rend particulièrement utiles pour découvrir les effets non linéaires des covariables numériques, et pour le faire de manière «automatique» (d'après l'article original de Hastie et Tibshirani, ils ont «le avantage d'être complètement automatique, c'est-à-dire qu'aucun travail de «détective» n'est nécessaire de la part du statisticien » ).

matteo
la source
2
Eh bien, mais comme dit dans les commentaires, tout cela peut aussi être fait avec glm ... Je pense que la principale différence est pragmatique. L'implémentation de R mgcvfait beaucoup de choses avec glmlesquelles vous ne pouvez pas faire , mais cela aurait également pu être fait dans ce cadre ...
kjetil b halvorsen
Oui, je suis d'accord avec vous, les GAM sont une extension des GLM. Cependant, la question était de savoir quand utiliser GAM et quand utiliser GLM, et il m'a semblé que l'opération signifiait des formes "classiques" de GLM, qui n'incluent généralement pas un ensemble de fonctions de base comme prédicteurs et ne sont pas utilisées pour révéler / relation non linéaire approximative inconnue.
matteo
merci - c'est utile. et oui, je parlais de GLM classiques
mluerig
@ matteo juste deux autres choses: i) qu'entendez-vous exactement par "une vraie relation est susceptible d'être fluide, plutôt que ondulée"? et ii) "particulièrement utile pour découvrir les effets non linéaires des covariables numériques" - comment décrirait-on / quantifierait-il la non-linéarité (par exemple avec mgcv)?
mluerig
La véritable relation n'est peut-être pas vraiment fluide, mais les GAM contrôlent généralement la complexité du modèle en ajoutant une pénalité de "ondulation" pendant le processus de maximisation de la probabilité (généralement implémentée en proportion du carré intégré de la dérivée seconde de la fonction estimée). Les effets non linéaires des covariables numériques signifient que l'influence d'une variable numérique particulière sur la variable dépendante pourrait, par exemple, ne pas augmenter / diminuer de façon monotone avec la valeur de la variable, mais avoir une forme inconnue, par exemple avec des maxima locaux, des minima, des points d'inflexion, etc. ..
matteo
13

Je voudrais souligner que les GAM sont beaucoup plus flexibles que les GLM, et ont donc besoin de plus de soin dans leur utilisation. Un pouvoir accru s'accompagne d'une plus grande responsabilité.

Vous mentionnez leur utilisation en écologie, ce que j'ai également remarqué. J'étais au Costa Rica et j'ai vu une sorte d'étude dans une forêt tropicale où certains étudiants diplômés avaient jeté des données dans un GAM et accepté ses lissages complexes et fous parce que le logiciel le disait. C'était assez déprimant, à l'exception du fait humoristique / admirable qu'ils ont rigoureusement inclus une note de bas de page qui documentait le fait qu'ils avaient utilisé un GAM et les lissoirs de haut niveau qui en ont résulté.

Vous n'avez pas besoin de comprendre exactement comment fonctionnent les GAM pour les utiliser, mais vous devez vraiment penser à vos données, au problème à résoudre, à la sélection automatisée de paramètres de votre logiciel comme des commandes plus fluides, vos choix (quels fluides vous spécifiez, interactions, si un lissage est justifié, etc.), et la plausibilité de vos résultats.

Faites beaucoup de tracés et regardez vos courbes de lissage. Deviennent-ils fous dans les zones avec peu de données? Que se passe-t-il lorsque vous spécifiez un lissage d'ordre inférieur ou supprimez complètement le lissage? Un degré 7 plus lisse est-il réaliste pour cette variable, est-il sur-adapté malgré les assurances qu'il valide de manière croisée ses choix? Avez-vous suffisamment de données? Est-ce de haute qualité ou bruyant?

J'aime GAMS et je pense qu'ils sont sous-estimés pour l'exploration de données. Ils sont juste super flexibles et si vous vous autorisez à la science sans rigueur, ils vous emmèneront plus loin dans le désert statistique que les modèles plus simples comme les GLM.

Wayne
la source
J'imagine que je fais le plus souvent ce que ces étudiants ont fait: jeter mes données dans un jeu et être ébloui par la façon dont elles mgcvgèrent mes données. J'essaie d'être parcimonieux avec mes paramètres et je vérifie dans quelle mesure les valeurs prédites correspondent à mes données. vos commentaires sont un bon rappel pour être un peu plus rigoureux - et peut-être enfin obtenir le livre de Simon Woods!
mluerig
Heck, j'irai jusqu'à utiliser un lisseur pour explorer une variable, puis fixer les degrés de liberté à une valeur faible ou éliminer le lissage et utiliser, disons, un terme carré si le lisseur était fondamentalement quadratique. Un quadratique a un sens pour un effet d'âge, par exemple.
Wayne
@Wayne, je suis venu ici exactement pour une réponse sur l'exploration des données par rapport aux GAM, et je vous ai vu le signaler. Comment utilisez-vous les GAM pour l'exploration de données? Et comment décideriez-vous si un GAM est nécessaire, ou si un GLM suffirait. Serait-il logique d'exécuter simplement un GAM simple dans lequel vous exécutez la réponse et chacun des prédicteurs potentiels tour à tour, tracez cela et voyez si la relation justifie un GAM (c'est-à-dire une relation non linéaire et non monotone)?
Tilen
6

Je n'ai pas la réputation de simplement ajouter un commentaire. Je suis tout à fait d'accord avec le commentaire de Wayne: un pouvoir accru s'accompagne d'une plus grande responsabilité . Les GAM peuvent être très flexibles et nous obtenons / voyons souvent des lisseurs complexes et fous . Ensuite, je recommande fortement aux chercheurs de restreindre les degrés de liberté (nombre de nœuds) des fonctions lisses et de tester différentes structures de modèle (interactions / pas d'interactions, etc.).

Les GAM peuvent être envisagés entre des approches basées sur un modèle (bien que la frontière soit floue, j'inclurais le GLM dans ce groupe) et des approches basées sur des données (par exemple, les réseaux de neurones artificiels ou les forêts aléatoires qui supposent des effets de variables non linéaires en interaction complète). En conséquence, je ne suis pas totalement d'accord avec Hastie et Tibshirani car les GAM ont encore besoin d'un travail de détective (j'espère que personne ne me tue pour l'avoir dit).

D'un point de vue écologique, je recommanderais d'utiliser l' arnaque du package R pour éviter ces lisseurs complexes complexes et peu fiables . Il a été développé par Natalya Pya et Simon Wood et permet de contraindre les courbes lisses aux formes souhaitées (par exemple unimodales ou monotones), même pour des interactions bidirectionnelles. Je pense que GLM devient une alternative mineure après avoir contraint la forme des fonctions lisses, mais ce n'est que mon opinion personnelle.

Pya, N., Wood, SN, 2015. Modèles additifs à contrainte de forme. Stat. Comput. 25 (3), 543–559. 10.1007 / s11222-013-9448-7

Rafa_Mas
la source