Splines en GLM et GAM

12

Est-il faux que les splines ne soient disponibles que dans les modèles GAM et non dans les modèles GLM? J'ai entendu cela il y a un certain temps, et je me demande si ce n'est qu'une idée fausse ou s'il y a du vrai. En voici une illustration: http://www.stats.uwo.ca/faculty/bellhouse/glm%20and%20gam.pdf

HeyJane
la source

Réponses:

18

Tu te trompes. Les splines ont une représentation linéaire utilisant des covariables dérivées. Par exemple, une tendance quadratique est non linéaire, mais peut être modélisée dans un modèle linéaire en prenant: , donc et son carré sont entrés dans un modèle linéaire. XE[Y|X]=β0+β1X+β2X2X

La spline peut simplement être considérée comme une paramétrisation sophistiquée d'une ou plusieurs covariables évaluées en continu ou en pseudo-continu.

AdamO
la source
Merci d'avoir répondu! Donc, en disant que je me trompe, vous voulez dire que les splines peuvent être utilisées dans GLM, n'est-ce pas? Ne comprenait pas complètement.
HeyJane
Oui absolument. Dans R, importez le package splineset l'exécution bs(...)vous permet de créer une représentation linéaire d'une spline avec un degré polynomial et des nœuds spécifiés par l'utilisateur.
AdamO
7
J'ai beaucoup écrit sur cette question ici: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Merci beaucoup à vous deux! Je le vois maintenant, AdamO! Super page, Matthew, je vais tout lire! :)
HeyJane
12

@ La réponse d'AdamO est correcte, en ce sens que les ajustements basés sur les splines peuvent certainement être effectués dans le cadre GLM standard. Cela ne veut pas dire que les GAM ne sont cependant qu'un cas particulier des GLM! Bien qu'il existe une série de modèles exactement identiques et pouvant être définis à la fois comme un GAM ou comme un GLM avec une expansion spline des covariables, certains modèles GAM ne sont pas disponibles dans le cadre GLM standard.

Par exemple, on pourrait adapter un modèle GAM en utilisant une spline de lissage pour chacune des covariables. Cela se traduit essentiellement par une expansion spline des variables, mais avec une pénalité sur les dérivées secondes. Il en résulte un modèle un peu en dehors du cadre GLM standard.

De plus, il est souvent considéré comme une procédure standard et est intégré dans la plupart des bibliothèques GAM pour s'adapter aux paramètres de lissage (c.-à-d. Les degrés de liberté des splines, etc.) en optimisant diverses mesures des erreurs hors échantillon, tandis que la formulation GLM prend généralement en compte l'espace covariable fixé.

Cliff AB
la source
J'aimerais pouvoir vous voter, mais je n'ai pas assez de points. Merci d'avoir contribué. Je ne suis pas sûr de comprendre votre deuxième paragraphe: vous dites que les splines de lissage ne peuvent être adaptées qu'avec GAM? Pourriez-vous expliquer quelle est exactement la différence entre une spline cubique régulière et une spline cubique de lissage? Je comprends que c'est beaucoup demander.
HeyJane
@HeyJane: si vous regardez la page wikipedia, vous remarquerez que ces splines sont pénalisées par leur dérivée seconde. Cela permet de contrôler le lissage par une pénalité continue plutôt que par des degrés de liberté entiers. En tant que tel, il s'agit d'un problème de probabilité maximale pénalisé, plutôt que d'un problème de probabilité maximale standard. Cela signifie que vous ne pouvez pas les adapter directement à la glmfonction de R , contrairement à l'utilisation de splines cubiques standard avec un glm.
Cliff AB
2
Ah! J'ai compris! Donc au lieu de, avec une spline cubique régulière, dire que nous voulons juste que les dérivées secondes soient égales aux nœuds, nous voulons imposer une propriété à la dérivée seconde, c'est-à-dire que la dérivée seconde n'est pas trop élevée, d'où le terme de pénalité?
HeyJane
@HeyJane: oui, je dirais que c'est un bon résumé.
Cliff AB