La définition des splines cubiques naturelles pour la régression

16

J'apprends les splines dans le livre "Les éléments de l'exploration, de l'inférence et de la prédiction des données statistiques" de Hastie et al. J'ai trouvé à la page 145 que les splines cubiques naturelles sont linéaires au-delà des nœuds limites. Il y a K noeuds, ξ1,ξ2,...ξK dans les splines et ce qui suit est donné à propos d'une telle spline dans le livre.entrez la description de l'image ici

Question 1: Comment les 4 degrés de liberté sont-ils libérés? Je ne comprends pas cette partie.

Question 2 : Dans la définition de lorsque k =dk(X) alors d K ( X ) = 0k=K . Qu'est-ce que l'auteur essaie de faire dans cette formule? Comment cela permet-il de s'assurer que les splines sont linéaires au-delà des nœuds de limite?dK(X)=00

Durin
la source

Réponses:

17
  1. Commençons par considérer les splines cubiques ordinaires. Ils sont cubiques entre chaque paire de nœuds et cubiques à l'extérieur des nœuds limites. Nous commençons par 4df pour le premier cube (à gauche du premier nœud frontière), et chaque nœud ajoute un nouveau paramètre (car la continuité des splines cubiques et des dérivés et des dérivées secondes ajoute trois contraintes, laissant un paramètre libre), ce qui fait un total de Paramètres pourK+4 nœuds.K

    Une spline cubique naturelle est linéaire aux deux extrémités. Cela contraint les parties cubiques et quadratiques à 0, chacune réduisant le df de 1. C'est 2 df à chacune des deux extrémités de la courbe, réduisant K+4 à .K

    Imaginez que vous décidiez de dépenser un certain nombre total de degrés de liberté ( , disons) sur votre estimation de courbe non paramétrique. Étant donné que l'imposition d'une spline naturelle utilise 4 degrés de liberté de moins qu'une spline cubique ordinaire (pour le même nombre de nœuds),pparamètres p , vous pouvez avoir 4 nœuds supplémentaires (et donc 4 paramètres supplémentaires) pour modéliser la courbe entre les nœuds limites. .p

  2. Notez que la définition de est pour k = 1 , 2 , . . . , KNk+2 (car il existe en tout K fonctions de base). Donc, la dernière fonction de base de cette liste, N K = d K - 2 - d K - 1 . Donc, le k le plus élevénécessaire pour les définitions de d k est pour k =k=1,2,...,K2KNK=dK2dK1kdkk=K1. (Autrement dit, nous n'avons pas besoin d'essayer de comprendre ce que certains pourraient faire, car nous ne l'utilisons pas.)dK

Glen_b -Reinstate Monica
la source
4

Je détaille l'assertion: "Cela libère quatre degrés de liberté (deux contraintes chacune dans les deux régions limites)" dans un exemple à nœuds ξ 1 , ξ 2 . Les intervalles associés sont ] - , ξ 1 [ , ] ξ 1 , ξ 2 [2ξ1,ξ2],ξ1[]ξ1,ξ2[]ξ2,+[|I|=3|I|1=2 noeuds).

Pour les splines cubiques (courantes)

4|I|=12

1(X<ξ1)  ;  1(X<ξ1)X  ;  1(X<ξ1)X2  ;  1(X<ξ1)X3  ;
1(ξ1X<ξ2)  ;  1(ξ1X<ξ2)X  ;  1(ξ1X<ξ2)X2  ;  1(ξ1X<ξ2)X3  ;
1(ξ2X)  ;  1(ξ2X)X  ;  1(ξ2X)X2  ;  1(ξ2X)X3.

Crr=2(r+1)×(|I|1)=3×(|I|1)=6

126=6

Pour cannelures cubiques naturelles

"Une spline cubique naturelle ajoute des contraintes supplémentaires, à savoir que la fonction est linéaire au-delà des nœuds limites."

4|I|4=12442

1(X<ξ1)  ;  1(X<ξ1)X  ;  
1(ξ1X<ξ2)  ;  1(ξ1X<ξ2)X  ;  1(ξ1X<ξ2)X2  ;  1(ξ1X<ξ2)X3  ;
1(ξ2X)  ;  1(ξ2X)X.

3×(|I|1)=6 contraintes sur les coefficients linéaires.

86=2

ahstat
la source