Quels sont les avantages / inconvénients de l'utilisation de splines, de splines lissées et d'émulateurs de processus gaussiens?

20

Je souhaite apprendre (et implémenter) une alternative à l'interpolation polynomiale.

Cependant, j'ai du mal à trouver une bonne description de la façon dont ces méthodes fonctionnent, comment elles sont liées et comment elles se comparent.

J'apprécierais votre contribution sur les avantages / inconvénients / conditions dans lesquelles ces méthodes ou alternatives seraient utiles, mais quelques bonnes références aux textes, diapositives ou podcasts seraient suffisantes.

David LeBauer
la source
C'est en effet une question très intéressante, mais peut-être (seulement peut-être) plus appropriée pour math.stackexchange.com ?
steffen
Il y a du matériel sur les splines et les splines de lissage dans The Elements of Statistical Learning de Hastie et al.
NPE du
8
Je pense que c'est une question parfaitement raisonnable sur les statistiques de calcul.
csgillespie
@csgillespie: Tout ce que je sais sur les splines et l'interpolation, j'ai appris dans des conférences numériques / mathématiques. Par conséquent, je peux être un peu biaisé;).
steffen

Réponses:

24

La régression OLS de base est une très bonne technique pour ajuster une fonction à un ensemble de données. Cependant, régression simple ne correspond à une ligne droite qui est constante pour toute la gamme possible de . Cela peut ne pas convenir à une situation donnée. Par exemple, les données montrent parfois une relation curviligne . Ceci peut être traité en régressant sur une transformation de , . Différentes transformations sont possibles. Dans les situations où la relation entre et est monotone , mais diminue progressivement, une transformation logarithmiqueY X f ( X ) X Y X X 2 X 3XOuiXF(X)XOuipeut être utilisé. Un autre choix populaire consiste à utiliser un polynôme où de nouveaux termes sont formés en élevant à une série de pouvoirs (par exemple, , , etc.). Cette stratégie est facile à mettre en œuvre et vous pouvez interpréter l'ajustement comme vous indiquant le nombre de `` plis '' existant dans vos données (où le nombre de plis est égal à la puissance la plus élevée requise moins 1). XX2X3

Cependant, les régressions basées sur le logarithme ou un exposant de la covariable ne s'adapteront de manière optimale que lorsque c'est la nature exacte de la vraie relation. Il est tout à fait raisonnable d'imaginer qu'il existe une relation curviligne entre et différente des possibilités offertes par ces transformations. Ainsi, nous arrivons à deux autres stratégies. La première approche est le loess , une série de régressions linéaires pondérées calculées sur une fenêtre mobile. Cette approche est plus ancienne et mieux adaptée à l'analyse exploratoire des données . YXOui

L'autre approche consiste à utiliser des splines. A c'est plus simple, une spline est un nouveau terme qui s'applique à une partie seulement de la plage de . Par exemple, peut aller de 0 à 1, et le terme spline ne peut aller que de 0,7 à 1. Dans ce cas, 0,7 est le nœud . Un terme de spline simple et linéaire serait calculé comme suit: et serait ajouté à votre modèle, en plus du origineX X s p l i n e = { 0XX XX 3 s p l i n e

Xspljene={0si X.septX-.septsi X>.sept

Xterme. Le modèle ajusté montrera une rupture nette à 0,7 avec une ligne droite de 0 à 0,7, et la ligne continue avec une pente différente de 0,7 à 1. Cependant, un terme de spline n'a pas besoin d'être linéaire. Plus précisément, il a été déterminé que les splines cubiques sont particulièrement utiles (c.-à-d. ). La rupture brutale n'a pas besoin d'être là non plus. Des algorithmes ont été développés qui contraignent les paramètres ajustés de telle sorte que les dérivées première et seconde correspondent aux nœuds, ce qui rend les nœuds impossibles à détecter en sortie. Le résultat final de tout cela est qu'avec quelques nœuds (généralement 3-5) dans des emplacements choisis (que le logiciel peut déterminer pour vous), vous pouvez reproduire à peu près n'importe quelXspljene3courbe. De plus, les degrés de liberté sont calculés correctement, vous pouvez donc faire confiance aux résultats, ce qui n'est pas vrai lorsque vous regardez d'abord vos données, puis décidez d'ajuster un terme au carré parce que vous avez vu un virage. De plus, tout cela n'est qu'une autre version (bien que plus compliquée) du modèle linéaire de base. Ainsi, tout ce que nous obtenons avec les modèles linéaires vient avec cela (par exemple, les prédictions, les résidus, les bandes de confiance, les tests, etc.) Ce sont des avantages substantiels .

La plus simple introduction à ces sujets que je connaisse est:

gung - Réintégrer Monica
la source
6

Les notes en ligne de Cosma Shalizi sur son cours magistral Advanced Data Analysis from an Elementary Point of View sont assez bonnes à ce sujet, considérant les choses dans une perspective où l'interpolation et la régression sont deux approches du même problème. Je voudrais particulièrement attirer votre attention sur les chapitres sur les méthodes de lissage et les splines .

Martin O'Leary
la source
Vos liens pourraient utiliser la mise à jour. Je l'ai essayé, mais vous devriez vérifier que mes modifications proposées atteignent les pages que vous vouliez.
Gregor --reinstate Monica--