Quelle est la distribution de l'erreur autour des données de croissance logistique?

10

En écologie, nous utilisons souvent l'équation de croissance logistique:

Nt=KN0ertK+N0ert-1

ou

Nt=KN0N0+(K-N0)e-rt

où est la capacité de charge (densité maximale atteinte), est la densité initiale, est le taux de croissance, est le temps depuis l'initiale.N 0 r tKN0rt

La valeur de a une borne supérieure souple et une borne inférieure , avec une borne inférieure forte à . ( K ) ( N 0 ) 0Nt(K)(N0)0

En outre, dans mon contexte spécifique, les mesures de sont effectuées en utilisant la densité optique ou la fluorescence, qui ont toutes deux un maximum théorique, et donc une forte limite supérieure.Nt

L'erreur autour de est donc probablement mieux décrite par une distribution bornée.Nt

Aux petites valeurs de , la distribution a probablement un fort biais positif, tandis qu'aux valeurs de N t approchant K, la distribution a probablement un fort biais négatif. La distribution a donc probablement un paramètre de forme qui peut être lié à N t .NtNtNt

La variance peut également augmenter avec .Nt

Voici un exemple graphique

entrez la description de l'image ici

avec

K<-0.8
r<-1
N0<-0.01
t<-1:10
max<-1

qui peut être produit en r avec

library(devtools)
source_url("https://raw.github.com/edielivon/Useful-R-functions/master/Growth%20curves/example%20plot.R")
  • Quelle serait la distribution théorique des erreurs autour de (en tenant compte à la fois du modèle et des informations empiriques fournies)?Nt

  • NtNt

  • R

Directions explorées jusqu'à présent:

  • NtK
  • Nt/muneX
  • Nt/muneX
Etienne Low-Décarie
la source
1
KrNtt
@whuber, j'ai essayé de répondre à certains de vos commentaires lors d'une récente modification.
Etienne Low-Décarie
1
5 pensez que si vous pouvez caractériser les propriétés de la distribution du bruit comme vous l'avez, vous pouvez choisir une forme paramétrique avec ces propriétés. Je pense que pour résumer, la famille doit 1. être définie sur un intervalle fini, 2. permettre l'inclinaison gauche, l'inclinaison droite et la symétrie. et 3. présente une variance qui augmente à mesure que Nt augmente. La distribution bêta correspond à la facture pour 1 et 2. L'intervalle fixe est [0, 1]. Ainsi, pour permettre à la variance d'augmenter, nous pourrions ajouter un paramètre c qui répartit la distribution sur l'intervsl [0, c].
Michael R. Chernick

Réponses:

3

Comme l'a souligné Michael Chernick, la distribution bêta à l'échelle est la plus logique pour cela. Cependant, à toutes fins pratiques, et en attendant que vous jamaisobtenir le modèle parfaitement correct, vous feriez mieux de simplement modéliser la moyenne via une régression non linéaire en fonction de votre équation de croissance logistique et d'envelopper cela avec des erreurs standard robustes à l'hétéroskédasticité. Mettre cela dans un contexte de probabilité maximale créera un faux sentiment d'une grande précision. Si la théorie écologique produisait une distribution, vous devriez adapter cette distribution. Si votre théorie ne produit que la prédiction de la moyenne, vous devez vous en tenir à cette interprétation et ne pas essayer de trouver autre chose que cela, comme une distribution complète. (Le système de courbes de Pearson était sûrement fantaisiste il y a 100 ans, mais les processus aléatoires ne suivent pas les équations différentielles pour produire les courbes de densité, ce qui était sa motivation avec ces courbes de densité - plutôt,Ntdoit avoir une limite supérieure; Je dirais plutôt que l'erreur de mesure introduite par vos appareils devient critique lorsque le processus atteint cette limite supérieure de mesure raisonnablement précise. Si vous confondez la mesure avec le processus sous-jacent, vous devez le reconnaître explicitement, mais j'imagine que vous êtes plus intéressé par le processus que par la description du fonctionnement de votre appareil. (Le processus sera là dans 10 ans; de nouveaux appareils de mesure pourraient devenir disponibles, donc votre travail deviendra obsolète.)

StasK
la source
Merci beaucoup! Je conviens qu'une séparation du processus et de la mesure est intéressante. Je suggérerais cependant que la plupart des méthodes de mesure ont cette limite supérieure forte, mais il pourrait être important de l'isoler. Si je dois utiliser la version bêta à l'échelle, malgré votre avertissement sur la confiance de l'ajustement MLE, des suggestions sur la façon de relier les paramètres de forme à ce système pour modéliser les variables pour permettre le MLE?
Etienne Low-Décarie
Si vous êtes convaincu que vos limites sont vraiment importantes dans votre application, vous pouvez simplement vous en tenir à cette version bêta à l'échelle. Tout ce que je dis, c'est que je ne suis pas convaincu. Il existe des modèles de données tronquées, où tout ce que vous savez, c'est que la valeur réelle dépasse le maximum que vous pouvez mesurer; ils sont parfois utilisés conjointement avec le codage supérieur des revenus, alors que pour des raisons de confidentialité, les revenus supérieurs à 100 000 USD / an sont tronqués à 100 000 USD / an.
StasK
1

@whuber a raison de dire qu'il n'y a pas de relation nécessaire entre la partie structurelle de ce modèle et la distribution des termes d'erreur. Il n'y a donc pas de réponse à votre question concernant la distribution d'erreur théorique.

Cela ne signifie pas pour autant que ce n'est pas une bonne question - juste que la réponse devra être largement empirique.

Vous semblez supposer que le caractère aléatoire est additif. Je ne vois aucune raison (autre que la commodité du calcul) pour que ce soit le cas. Existe-t-il une alternative selon laquelle il existe un élément aléatoire ailleurs dans le modèle? Par exemple, voir ce qui suit, où le caractère aléatoire est introduit comme normalement distribué avec une moyenne de 1, la variance est la seule chose à estimer. Je n'ai aucune raison de penser que c'est la bonne chose à faire, sinon que cela donne des résultats plausibles qui semblent correspondre à ce que vous voulez voir. Je ne sais pas s'il serait pratique d'utiliser quelque chose comme ça comme base pour estimer un modèle.

loggrowth <- function(K, N, r, time, rand=1){
    K*N*exp(rand*r*time)/(K+N*exp(rand*r*time-1)))}

plot(1:100, loggrowth(100,20,.08,1:100, rnorm(100,1,0.1)), 
    type="p", ylab="", xlab="time")
lines(1:100, loggrowth(100,20,.08,1:100))

entrez la description de l'image ici

Peter Ellis
la source
Dans ce cas, vous pouvez avoir des valeurs Nt inférieures à zéro et supérieures à la limite supérieure rigide. De plus, du bruit est attendu dans tous les paramètres (pas nécessairement dans le produit d'un paramètre avec le temps), d'où le bruit sur la variable de réponse. Je serais toujours intéressé par l'interprétation de la probabilité maximale de votre approche.
Etienne Low-Décarie
Cela ne permet pas de délimiter la distribution pour chaque Nt et ne permet pas de biaiser la composante de bruit. Je ne sais pas si mon idée d'une distribution bêta à l'échelle a été utilisée dans la littérature, mais elle satisfait bien aux restrictions. Je ne l'ai pas essayé mais peut-être que la probabilité maximale pourrait être essayée. Je ne suis pas sûr, mais il y aurait peut-être un problème si c est inclus dans l'estimation de vraisemblance. Peut-être que c pourrait être estimé séparément sur la base uniquement de Nt, puis le reste du modèle pourrait être ajusté par maximum de vraisemblance pour chaque Nt fixe.
Michael R. Chernick
Je pense juste à haute voix. Est-ce que quelqu'un pense que ce problème pourrait être transformé en un bon document de recherche?
Michael R. Chernick
Un article de 1966 s'est penché un peu sur cette question, mais je n'en ai pas vu de plus récent. Peut-être que les choses ont changé depuis? jstor.org/discover/10.2307/…
Etienne Low-Décarie
Veuillez me faire savoir si vous décidez d'emprunter cette voie.
Etienne Low-Décarie