Je travaille sur un modèle de coût prédictif où l'âge du patient (une quantité entière mesurée en années) est l'une des variables prédictives. Une forte relation non linéaire entre l'âge et le risque d'hospitalisation est évidente:
J'envisage une spline de lissage de régression pénalisée pour l'âge du patient. Selon The Elements of Statistical Learning (Hastie et al, 2009, p.151), le placement optimal des nœuds est d'un nœud par valeur unique d'âge des membres.
Étant donné que je conserve l'âge comme un entier, la spline de lissage pénalisée équivaut-elle à exécuter une régression de crête ou un lasso avec 101 variables d'indicateur d'âge distinctes, une par valeur d'âge trouvée dans l'ensemble de données (moins une pour référence)? Une sur-paramétrisation est alors évitée car les coefficients de chaque indicateur d'âge sont réduits à zéro.
Réponses:
Grande question. Je crois que la réponse à la question que vous posez - "est la spline de lissage pénalisée équivalente à l'exécution d'une régression de crête ou d'un lasso" - est oui. Il existe un certain nombre de sources qui peuvent fournir des commentaires et des perspectives. Un endroit que vous voudrez peut - être commencer par ce lien est PDF . Comme indiqué dans les notes:
"Ajuster un modèle de spline de lissage revient à effectuer une forme de régression de crête dans une base pour des splines naturelles."
Si vous êtes à la recherche d'une lecture générale, vous pourriez apprécier de consulter cet excellent article sur les régressions pénalisées: le pont contre le lasso . Cela pourrait aider à répondre à la question de savoir si la spline de lissage pénalisée est exactement équivalente - bien qu'elle offre une perspective plus générale. Je trouve cela intéressant car ils ont comparé différentes techniques les unes aux autres, en particulier un nouveau modèle de régression de pont avec le LASSO, ainsi que Ridge Regression.
Un autre endroit plus tactique à vérifier pourrait être les notes de package pour le package smooth.spline dans R. Notez qu'elles font allusion à la relation ici, en observant que: "avec ces définitions, où la représentation de la base B-spline peut être déclarée comme f = X c (c.-à-d. C est le vecteur des coefficients de spline), la probabilité logarithmique pénalisée est , et donc est la solution de la (régression de crête) . "c ( X T W X + λ Σ ) c = X T W yL=(y−f)TW(y−f)+λcTΣc c (XTWX+λΣ)c=XTWy
la source
Je ne suis pas sûr que vous vouliez vraiment autant de nœuds, étant donné l'intrigue.
Il semble que vous puissiez avoir de petits échantillons à des âges particuliers; le pic à 74 et les valeurs 0 à bas et haut de gamme n'ont pas de sens.
Compte tenu de l'autorité de la source de votre site, vous souhaitez peut-être plutôt des cannelures cubiques restreintes, avec un nombre de nœuds beaucoup plus petit?
la source
Je suis en retard à cette discussion, mais regardez le tableau des données ... cette apparente spikeyness dans les données de plus de 70 ans n'est pas un véritable reflet du risque lié à l'âge, c'est un symptôme de données rares et d'un certain hasard.
Vous ne voudriez pas modéliser cela en utilisant un nœud par an, cela conduirait certainement à un surajustement du bruit.
De plus, vous allez trouver un modèle très différent si vous regardez les femmes contre les hommes. La majeure partie du pic dans la tranche d'âge 15-30 ans sera l'obstétrique.
la source