Comment calculer l'intervalle de confiance à 95% pour une équation non linéaire?

10

J'ai une équation pour prédire le poids des lamantins à partir de leur âge, en jours (dias, en portugais):

R <- function(a, b, c, dias) c + a*(1 - exp(-b*dias))

Je l'ai modélisé en R, en utilisant nls (), et j'ai obtenu ce graphique:

entrez la description de l'image ici

Maintenant, je veux calculer l'intervalle de confiance à 95% et le représenter dans le graphique. J'ai utilisé les limites inférieures et supérieures pour chaque variable a, b et c, comme ceci:

lower a = a - 1.96*(standard error of a)
higher a = a + 1.96*(standard error of a)
(the same for b and c)

puis je trace une ligne inférieure en utilisant a, b, c et une ligne supérieure en utilisant a, b, c plus élevé. Mais je ne sais pas si c'est la bonne façon de procéder. Il me donne ce graphique:

entrez la description de l'image ici

Est-ce la façon de procéder ou est-ce que je me trompe?

Rodrigo
la source

Réponses:

13
  1. Cet AQ sur ce site explique les mathématiques pour créer des bandes de confiance autour des courbes générées par la régression non linéaire: Forme de confiance et intervalles de prédiction pour la régression non linéaire

  2. Si vous lisez plus loin, cela aidera à distinguer les intervalles de confiance pour les paramètres des bandes de confiance pour la courbe.

  3. En regardant votre graphique, il semble que vous ayez des données de quatre animaux, mesurant chacun plusieurs jours. Si c'est le cas, l'ajustement de toutes les données à la fois viole l'une des hypothèses de régression - que chaque point de données soit indépendant (ou que chaque résidu ait une "erreur" indépendante). Vous pouvez envisager d'adapter individuellement le traçage de chaque animal ou d'utiliser un modèle mixte pour les adapter à la fois.

Harvey Motulsky
la source
5
+1 Le troisième point est crucial: tout effort pour calculer les IC ou les bandes de confiance en supposant que ces données sont indépendantes produira des intervalles terriblement inadéquats (c'est-à-dire courts ). Cela pourrait aider le PO à souligner que la méthode proposée dans la question est définitivement erronée: elle néglige la corrélation (forte) entre les estimations des paramètres et agrège incorrectement les limites de confiance. Le résultat net semble en fait assez raisonnable (purement par accident et par chance) mais à mes yeux, il n'est toujours pas suffisamment conservateur.
whuber