Je souhaite mieux comprendre les avantages / inconvénients de l'utilisation de loess ou d'un spline de lissage pour lisser une courbe.
Une autre variation de ma question est de savoir s'il existe un moyen de construire une spline de lissage d'une manière qui produira les mêmes résultats que l'utilisation du loess.
Toute référence ou idée est la bienvenue.
regression
splines
loess
Tal Galili
la source
la source
Réponses:
Voici un code / exemple R qui vous permettra de comparer les ajustements pour un ajustement de loess et un ajustement de spline:
Vous pouvez l'essayer avec vos données et modifier le code pour essayer d'autres types ou options. Vous pouvez également consulter la
loess.demo
fonction du package TeachingDemos pour une meilleure compréhension de ce que fait l'algorithme de loess. Notez que ce que vous voyez du loess est souvent une combinaison de loess avec un second lissage d'interpolation (parfois lui-même une spline), laloess.demo
fonction affiche à la fois l'ajustement de lœss lissé et brut.Théoriquement, vous pouvez toujours trouver une spline qui se rapproche d'une autre fonction continue aussi près que vous le souhaitez, mais il est peu probable qu'il y ait un simple choix de nœuds qui donnera de manière fiable une approximation proche d'un ajustement de loess pour n'importe quel ensemble de données.
la source
Les résultats réels d'une spline de lissage ou d'un lœss vont être assez similaires. Ils peuvent sembler un peu différents sur les bords du support, mais tant que vous vous assurez qu'il s'agit d'une spline de lissage "naturelle", ils seront très similaires.
Si vous en utilisez simplement un pour ajouter un "lissage" à un nuage de points, il n'y a aucune raison réelle de préférer l'un à l'autre. Si vous souhaitez plutôt faire des prédictions sur de nouvelles données, il est généralement beaucoup plus facile d'utiliser une spline de lissage. En effet, la spline de lissage est une expansion de base directe des données d'origine; si vous avez utilisé 100 nœuds pour le faire, cela signifie que vous avez créé ~ 100 nouvelles variables à partir de la variable d'origine. Loess estime plutôt la réponse à toutes les valeurs expérimentées (ou à un sous-ensemble stratifié pour les grandes données).
En général, il existe des algorithmes établis pour optimiser la valeur de pénalité pour le lissage des splines (mgcv dans R le fait probablement le mieux). Loess n'est pas aussi clair, mais vous obtiendrez généralement une sortie raisonnable de toute implémentation. MGCV vous donne également une idée des degrés de liberté équivalents afin que vous puissiez avoir une idée de la façon dont «non linéaire» vos données sont.
Je trouve que lors de la modélisation sur de très grandes données, une spline naturelle plus simple fournit souvent des résultats similaires pour un calcul minimal par rapport à une spline de lissage ou au loess.
la source