Les avantages et les inconvénients de la lissage de la spline

11

J'ai une question générale. Récemment, je viens d'apprendre l'expansion et la régularisation de la base. Il existe plusieurs techniques intéressantes, notamment: spline cubique, spline naturelle, spline b et spline de lissage .

La question est, quels sont les avantages et les inconvénients (s'il y en a) du lissage de la spline par rapport à la spline cubique et naturelle "typique" où les utilisateurs doivent sélectionner les nœuds?

Eh bien, en général, il est stupide de simplement demander aux gens quelle méthode est la meilleure sans le contexte des vrais problèmes. Ainsi je demande juste, sur la base de vos expériences, laquelle est la meilleure?

L'un des avantages que je peux voir est: la technique de lissage des splines évite de sélectionner les nœuds.

penpen926
la source

Réponses:

7

La terminologie des splines peut prêter à confusion (du moins je le trouve) car exactement ce que les gens veulent dire quand ils utilisent la "spline cubique", par exemple, dépend du type de spline cubique; nous pouvons avoir, par exemple, à la fois des splines de lissage cubiques et des splines de régression cubiques (pénalisées).

Ce que j'esquisse ci-dessous est extrait des sections 5.1.2 et 5.2 de Wood (2017).

Une spline interpolante g(xi) dire définirait g(xi)=yi car il interpole les observations yi via une fonction composée de sections de polynômes cubiques joints de telle sorte que la spline est continue jusqu'à la dérivée seconde.

Une spline de lissage cubique vise à équilibrer l'ajustement aux données tout en produisant une fonction lisse; le but n'est pas d'interpoler les données issues des interpolations de splines. Plutôt que de définirg(xi)=yi, une spline de lissage cubique agit comme n paramètres libres à estimer pour minimiser (Wood, 2017)

i=1n{yig(xi)}2+λg(x)2dx

où la première partie est une mesure de l'ajustement aux données, tandis que la deuxième partie est une pénalité contre la ondulation (elle intègre l'intégrale de la dérivée seconde carrée de la spline comme mesure de la courbure ou de l'oscillation, à quelle vitesse la courbe est pente changeante). Nous pouvons considérer la ondulation comme une complexité, de sorte que la fonction inclut une pénalité contre les lissages trop complexes.

On peut montrer qu'une spline cubique de lissage g(x), de toutes les fonctions possibles f, est la fonction qui minimise le critère ci-dessus (une preuve est donnée dans Wood, 2017, section 5.1.2 pp.198).

Comme pour une spline interpolante, une spline cubique de lissage a des nœuds situés à chaque paire d'observation xi, yi. Plus tôt, j'ai mentionné qu'une spline de lissage anparamètres libres; il y a autant de paramètres que de données. Pourtant, l'effet deλ, la pénalité contre les lissages ondulés est de produire une spline beaucoup plus lisse que ce qui est implicite si elle est utilisée n degrés de liberté (Wood 2017).

C'est le principal inconvénient du côté des cannelures de lissage. Vous devez estimer autant de paramètres que vous avez de données et pourtant, l'effet de bon nombre de ces paramètres sera généralement faible en raison de la pénalité contre les ajustements trop complexes (ondulés).

L'équilibrage est le fait que le choix des nœuds dans la spline de lissage est pris en charge, car il n'y a pas de choix.

Passant au paramètre de spline de régression pénalisée, nous avons maintenant le choix de l'emplacement des nœuds, mais nous pouvons choisir le nombre de nœuds à utiliser. Comment pourrions-nous décider s'il s'agit d'un compromis utile, qu'il est avantageux d'ajuster la spline avec un nombre réduit de nœuds, même si nous devons décider combien et où les placer?

Dans une spline de régression pénalisée, plutôt que de penser aux nœuds en soi, pensez à la spline comme étant composée de fonctions de base; ce sont de petites fonctions, qui ont chacune un coefficient, dont la combinaison linéaire donne la valeur de la spline pour une donnéexi. Le choix est maintenant le nombre de fonctions de base à utiliser pour modéliser la réponse avec le nombrek étant beaucoup moins que le nombre de données n. La théorie sous-jacente à ce choix est un peu limitée ou limitée à des cas particuliers ou à des approches pour estimer la valeur deλ mais l'idée générale est que le nombre de fonctions de base requises ne croît que lentement avec n afin d'atteindre des performances proches des performances optimales représentées par les splines de lissage (résumées dans Wood 2017).

En général, lorsque les nœuds sont réellement répartis dans les données d'une spline de régression cubique, cela n'a pas beaucoup d'effet sur la spline ajustée. Les choix typiques sont de placerk1 noeuds uniformément sur l'intervalle de x, ou pour placer des nœuds aux quantiles de la distribution de x. Si vous avez une répartition très inégale des observations sur la plage dex, il serait inutile de placer les nœuds uniformément sur xafin que vous puissiez les concentrer là où vous avez des données. Alternativement, la transformationx d'une certaine manière, peut même égaliser la distribution de telle sorte que le placement uniforme des nœuds est à nouveau possible.

Lors de l'ajustement d'un modèle de spline dans des dimensions élevées, disons une spline de deux variables, le placement des nœuds est plus problématique si les paires de x1i,x2i sont limitées à une partie de l'espace couvert par x1 et x2; si les données ne proviennent pas de grandes parties de l'espace, le fait de placer les nœuds de manière uniforme entraînera la localisation de nombreux nœuds loin du support des données. Ce qui est du gaspillage. Des stratégies de traitement sont disponibles, telles que des algorithmes de remplissage d'espace ou l'utilisation de splines P et de pénalités basées sur des dérivés clairsemés qui permettent une estimation efficace même dans des données inégalement réparties (par exemple Wood 2016)

Références

Wood, SN 2016. Splines P avec pénalités dérivées et lissage du produit tensoriel de données inégalement réparties. Stat. Comput. 1–5. doi: 10.1007 / s11222-016-9666-x ( Open Access )

Wood, SN 2017. Modèles d'additifs généralisés: une introduction avec R, deuxième édition, CRC Press.

Gavin Simpson
la source
Une question de suivi à propos de la déclaration "une spline de lissage a 𝑛 paramètres libres; il y a autant de paramètres que de données". Et si j'ai deux variables dans le modèle additif, f (x1) et f (x2), les deux sont des splines de lissage. Est-ce à dire que le nombre de paramètres à estimer est 2n?
vtshen
Je pense que cela devrait être déclaré de manière plus générale car il y a autant de paramètres à estimer que de combinaisons uniques de données. Si deux observations ou plus ont pris les mêmes valeurs l'une pour l'autre pourx1 et x2, nous n'avons besoin que d'un nœud pour cette combinaison de données.
Gavin Simpson