Sélection de k nœuds dans la spline de lissage de régression équivalente à k variables catégorielles?

9

Je travaille sur un modèle de coût prédictif où l'âge du patient (une quantité entière mesurée en années) est l'une des variables prédictives. Une forte relation non linéaire entre l'âge et le risque d'hospitalisation est évidente:

entrez la description de l'image ici

J'envisage une spline de lissage de régression pénalisée pour l'âge du patient. Selon The Elements of Statistical Learning (Hastie et al, 2009, p.151), le placement optimal des nœuds est d'un nœud par valeur unique d'âge des membres.

Étant donné que je conserve l'âge comme un entier, la spline de lissage pénalisée équivaut-elle à exécuter une régression de crête ou un lasso avec 101 variables d'indicateur d'âge distinctes, une par valeur d'âge trouvée dans l'ensemble de données (moins une pour référence)? Une sur-paramétrisation est alors évitée car les coefficients de chaque indicateur d'âge sont réduits à zéro.

RobertF
la source
Votre proposition d'indicateurs d'âge + retrait est essentiellement la même chose qu'une spline de lissage d'ordre 0.
Glen_b -Reinstate Monica
Il serait utile si vous spécifiez quelles sont les autres variables prédictives, comme le suggère l'une des réponses, si vous contrôlez pour la raison de l'admission, vous pourriez avoir un graphique très différent.
seanv507

Réponses:

11

Grande question. Je crois que la réponse à la question que vous posez - "est la spline de lissage pénalisée équivalente à l'exécution d'une régression de crête ou d'un lasso" - est oui. Il existe un certain nombre de sources qui peuvent fournir des commentaires et des perspectives. Un endroit que vous voudrez peut - être commencer par ce lien est PDF . Comme indiqué dans les notes:

"Ajuster un modèle de spline de lissage revient à effectuer une forme de régression de crête dans une base pour des splines naturelles."

Si vous êtes à la recherche d'une lecture générale, vous pourriez apprécier de consulter cet excellent article sur les régressions pénalisées: le pont contre le lasso . Cela pourrait aider à répondre à la question de savoir si la spline de lissage pénalisée est exactement équivalente - bien qu'elle offre une perspective plus générale. Je trouve cela intéressant car ils ont comparé différentes techniques les unes aux autres, en particulier un nouveau modèle de régression de pont avec le LASSO, ainsi que Ridge Regression.

Un autre endroit plus tactique à vérifier pourrait être les notes de package pour le package smooth.spline dans R. Notez qu'elles font allusion à la relation ici, en observant que: "avec ces définitions, où la représentation de la base B-spline peut être déclarée comme f = X c (c.-à-d. C est le vecteur des coefficients de spline), la probabilité logarithmique pénalisée est , et donc est la solution de la (régression de crête) . "c ( X T W X + λ Σ ) c = X T W yL=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy

Nathaniel Payne
la source
Pas de soucis @RobertF. Passe une bonne aprés midi.
Nathaniel Payne
1
Le lien vers le lien PDF au paragraphe 1 est rompu.
Jthorpe
3

Je ne suis pas sûr que vous vouliez vraiment autant de nœuds, étant donné l'intrigue.

Il semble que vous puissiez avoir de petits échantillons à des âges particuliers; le pic à 74 et les valeurs 0 à bas et haut de gamme n'ont pas de sens.

Compte tenu de l'autorité de la source de votre site, vous souhaitez peut-être plutôt des cannelures cubiques restreintes, avec un nombre de nœuds beaucoup plus petit?

Peter Flom
la source
1
Merci Peter - oui # d'obs sont rares pour les très jeunes et les moins jeunes. Utiliser autant de nœuds semble contre-intuitif, j'ai fait une double prise mentale lors de la première lecture en ESL que placer un nœud sur chaque observation minimise la somme résiduelle pénalisée des carrés. Je suppose que la preuve est dans le pudding si une spline cubique restreinte ou une spline de lissage pénalisée fonctionne mieux pour prédire ma variable de réponse dans l'ensemble de données de test.
RobertF
0

Je suis en retard à cette discussion, mais regardez le tableau des données ... cette apparente spikeyness dans les données de plus de 70 ans n'est pas un véritable reflet du risque lié à l'âge, c'est un symptôme de données rares et d'un certain hasard.

Vous ne voudriez pas modéliser cela en utilisant un nœud par an, cela conduirait certainement à un surajustement du bruit.

De plus, vous allez trouver un modèle très différent si vous regardez les femmes contre les hommes. La majeure partie du pic dans la tranche d'âge 15-30 ans sera l'obstétrique.

Doug Dame
la source
Salut Doug - C'est vrai, il y a certainement moins d'observations de plus de 70 ans. Un modèle de spline pénalisé d'un an par nœud ramènerait probablement à zéro les 70+ coefficients. L'objectif ici serait de remplacer la sélection manuelle du placement des nœuds par un processus automatisé qui correspond le mieux à la relation non linéaire entre l'âge et l'admission IP, particulièrement utile dans un modèle prédictif.
RobertF