Meilleure méthode pour créer des courbes de croissance

10

Je dois créer des graphiques (similaires aux courbes de croissance) pour les enfants de 5 à 15 ans (seulement 5,6,7, etc.; il n'y a pas de valeurs fractionnaires comme 2,6 ans) pour une variable de santé qui est non négative, continue et la plage de 50 à 150 (avec seulement quelques valeurs en dehors de cette plage). Je dois créer des courbes de 90e, 95e et 99e centiles et également créer des tableaux pour ces centiles. La taille de l'échantillon est d'environ 8000.

J'ai vérifié et trouvé les moyens suivants:

  1. Trouvez des quantiles, puis utilisez la méthode de loess pour obtenir une courbe lisse à partir de ces quantiles. Le degré de lissage peut être ajusté par le paramètre «span».

  2. Utilisez la méthode LMS (Lambda-Mu-Sigma) (par exemple en utilisant des packages gamlss ou VGAM dans R).

  3. Utilisez la régression quantile.

  4. Utilisez la moyenne et l'écart-type de chaque groupe d'âge pour estimer le centile de cet âge et créer des courbes de centile.

Quelle est la meilleure façon de procéder? Par «meilleur», j'entends soit la méthode idéale qui est la méthode standard pour la création de telles courbes de croissance et serait acceptable pour tous. Ou une méthode plus facile et plus simple à implémenter, qui peut avoir certaines limites, mais est une méthode acceptable et plus rapide. (Par exemple, l'utilisation de loess sur les valeurs de centile est beaucoup plus rapide que l'utilisation du LMS du package gamlss).

Quel sera également le code R de base pour cette méthode.

Merci de votre aide.

rnso
la source
2
Vous demandez le "meilleur" qui se situe généralement entre difficile et impossible à discuter définitivement. (La "meilleure" mesure du niveau est déjà assez difficile.) Vous avez clairement lié votre question aux changements de santé chez les enfants, mais vos critères sur le "meilleur" ne sont pas explicites, en particulier quels types ou degrés de douceur sont acceptables ou inacceptables.
Nick Cox
Je salue cette tentative, mais a) n'existe évidemment pas, sinon pourquoi y a-t-il des solutions concurrentes, ou pourquoi cela n'est-il pas évident dans la littérature que vous lisez? L'intérêt pour ce problème remonte à des décennies, voire des siècles. Plus facile signifie: plus facile à comprendre, plus facile à expliquer aux médecins ou aux professionnels non statistiquement soucieux en général, plus facile à mettre en œuvre, ...? Je semble sans doute difficile, mais pourquoi devriez-vous vous soucier de la vitesse ici? Aucune de ces méthodes n'est exigeante en termes de calcul.
Nick Cox
@NickCox: J'ai édité la question en fonction de vos commentaires. J'apprécierai une vraie réponse.
rnso
1
Désolé, mais je ne travaille pas dans ce domaine et je pense que votre question est trop difficile à répondre. Les commentaires existent parce que les gens ne peuvent pas ou ne veulent pas répondre mais ont néanmoins quelque chose à dire. Je n'écris pas de réponses à la commande.
Nick Cox

Réponses:

6

Il existe une grande littérature sur les courbes de croissance. Dans mon esprit, il existe trois approches "top". Dans les trois, le temps est modélisé comme une spline cubique restreinte avec un nombre suffisant de nœuds (par exemple, 6). Il s'agit d'un lisseur paramétrique avec d'excellentes performances et une interprétation facile.

  1. Modèles classiques de courbe de croissance (moindres carrés généralisés) pour les données longitudinales avec un modèle de corrélation sensible tel que AR1 à temps continu. Si vous pouvez montrer que les résidus sont gaussiens, vous pouvez obtenir des MLE des quantiles en utilisant les moyennes estimées et l'écart type commun.
  2. n
  3. OuiOui
Frank Harrell
la source
Lorsque vous avez utilisé des cotes proportionnelles, comment avez-vous adapté l'hypothèse de bon de commande (en supposant qu'elle ait échoué) avec autant de niveaux de résultats? Merci.
2015
2
Même s'il échoue, le modèle peut être plus performant que certains des autres modèles en raison de moins d'hypothèses dans l'ensemble. Ou basculez vers l'un des autres modèles de famille ordonnancière de probabilité cumulative tels que les risques proportionnels (log-log cumulatif prob. Link).
Frank Harrell
1

Régression du processus gaussien . Commencez avec le noyau exponentiel au carré et essayez d'ajuster les paramètres à l'œil nu. Plus tard, si vous voulez faire les choses correctement, expérimentez différents noyaux et utilisez la probabilité marginale pour optimiser les paramètres.

Si vous voulez plus de détails que le tutoriel lié ci-dessus, ce livre est génial .

Andy Jones
la source
Merci pour votre réponse. Comment évaluez-vous la régression du processus gaussien par rapport aux autres méthodes mentionnées. Le deuxième tracé gaussien sur scikit-learn.org/0.11/auto_examples/gaussian_process/… semble très similaire à l'avant-dernier tracé sur cette page de LOESS (régression locale): princeofslides.blogspot.in/2011/05/… . LOESS est beaucoup plus facile à réaliser.
rnso
Personnellement, je préfère fortement le GPR pour tout ensemble de données suffisamment petit pour vous permettre de l'adapter. En plus d'être beaucoup plus "agréable" d'un point de vue théorique, il est plus flexible, robuste et offre une sortie probabiliste bien calibrée. Cela dit, si vos données sont denses et bien comportées, votre public ne sera probablement pas en mesure de faire la différence entre LOESS et un GPR à moins qu'ils ne soient des statisticiens.
Andy Jones
3
yX
1
@ Nick: Mon conseil était de construire un modèle de vos données, puis d'utiliser le modèle pour construire les courbes de centile (lisses). Maintenant que vous l'avez mentionné, oui, j'ai complètement raté le deuxième volet (c'est-à-dire la question réelle).
Andy Jones
1
1,96