Rapport des résultats d'ajustement de courbe dans un article scientifique

11

(J'espère que cette question convient à ce site; sinon, acceptez mes excuses).

J'ai exécuté une certaine simulation et obtenu une série chronologique y (t), t = 0, 1, ... 20. Après avoir essayé certaines fonctions, j'ai constaté que:

y(t) =~ 1 / (A t + B)

Où A et B sont des coefficients I calculés en utilisant une régression linéaire, avec R ^ 2> 0,99.

Quelle est la manière standard de rendre compte de tels résultats dans un article scientifique? Plus précisément:

A. Je n'ai aucune explication théorique, pourquoi la sortie ressemble à ceci (je sais qu'elle devrait diminuer et qu'elle est limitée par le bas, mais pas beaucoup plus). C'était juste une supposition réussie. Dois-je décrire toutes les autres suppositions infructueuses que j'ai essayées?

B. Chaque fois que je lance la simulation, j'obtiens des valeurs légèrement différentes de A et B. Dois-je simplement signaler une exécution aléatoire, ou dois-je exécuter la simulation plusieurs fois et faire la moyenne des résultats? Si oui, combien de fois suffit-il?

Erel Segal-Halevi
la source
Que voulez-vous transmettre? Que représente chaque simulation individuelle?
Bill Barth
C'est une simulation de la propriété foncière. Il y a N citoyens et N terrains. Initialement, chaque terrain est donné à un citoyen au hasard. Ensuite, chaque année, chaque terrain est vendu avec une certaine probabilité p, et s'il est effectivement vendu, l'acheteur est choisi au hasard. Après 50 ans, j'exécute une procédure "Jubilé" où certaines terres sont rendues aux propriétaires d'origine, si ces propriétaires n'ont actuellement aucune terre. Je mesure le nombre de citoyens sans terre (y) après chaque jubilé (t). Certes, y (t) n'est pas en augmentation. Je veux montrer qu'elle diminue à un taux prévisible et qu'elle converge vers 0.
Erel Segal-Halevi
Il me semble que vous devez alors développer une représentation statistique de et (moyenne, médiane, etc.). UNEB
Bill Barth
2
Considérons un modèle avec N + 1 espèces différentes où , ce qui dénote la concentration de propriétaires fonciers avec parcelles de terrain. Vous pouvez maintenant appliquer la théorie de la cinétique chimique à votre problème. Xnn=0Nn
Deathbreath
Bill: tu veux dire que je devrais calculer A et B plusieurs fois, puis déclarer la moyenne et std? Je pense qu'une meilleure approche consiste à effectuer une seule régression linéaire avec tous les échantillons de toutes les simulations. Mais combien de fois dois-je exécuter la simulation?
Erel Segal-Halevi

Réponses:

5

Vous essayez d'adapter une loi de puissance à votre distribution. Très intéressant. Ceux-ci apparaissent tout le temps dans la théorie des graphes , les réseaux sociaux et une foule d'autres endroits.

Il y a quelques tutoriels sur l'ajustement de vos données ici et ici .

De plus, en référence à la question A., comment la probabilité qu'une personne achète une terre dépend-elle de la quantité de terre qu'elle possède déjà? Vous pourrez peut-être utiliser le modèle de Barbasi pour expliquer pourquoi une loi de puissance est un ajustement raisonnable à vos données.

mise à jour: je l'ai utilisé et cela fonctionne très bien: https://pypi.python.org/pypi/powerlaw

dranxo
la source
+1 pour tous les liens! J'ai aussi pensé à la loi de puissance, mais sa forme simple (y = A t ^ k) n'entraîne pas la forme que j'ai trouvée, à cause de la constante B (y = (A t + B) ^ - 1). Existe-t-il une forme plus générale?
Erel Segal-Halevi
Si vous souhaitez décrire la forme de la courbe, vous devez factoriser et décaler avant d'ajuster une loi de puissance. Le fait que vous ayez un B n'est pas pertinent pour la forme de la courbe.
dranxo
Désolé, je ne vous ai pas compris, que voulez-vous dire par "alors vous devez factoriser et changer"?
Erel Segal-Halevi
Réglez x = t + B / A. Alors (At + B) ^ {- 1} = (A * x) ^ {- 1} qui est la forme dans les liens.
dranxo
1
tuvalu.santafe.edu/~aaronc/courses/7000/csci7000-001_2011_L3.pdf
dranxo
7

Quelques réflexions sur votre question:

  • La façon dont vous rapporterez l'ajustement de votre modèle dépendra beaucoup de votre public et de votre domaine. Par exemple, dans mon domaine, les statistiques d'ajustement de modèle comme R ^ 2 sont très rarement rapportées - considérées comme ni impressionnantes ni particulièrement utiles. Au lieu de cela, certains critères sur la façon dont vous êtes arrivé au modèle auquel vous êtes arrivé ont tendance à être décrits, puis vous rapportez les résultats de votre modèle - nous supposons tous que vous ajustez réellement le modèle correctement.
  • "Je suis tombé sur ce formulaire" est une mauvaise explication. Une très mauvaise. Malgré un penchant pour les histoires de génie accidentel, comme la découverte de la pénicilline ou de la quinine, la «chance aveugle stupide» n'est pas un processus scientifique fiable. Par exemple, vous avez montré que ce formulaire est bon pour ajuster vos données, mais vous n'avez pas encore montré qu'il est préférable d'ajuster vos données. R ^ 2 seul n'est pas une mesure suffisante pour évaluer dans quelle mesure votre modèle correspond aux données. Voir le quatuor d'Anscombe .
  • Comme l'a mentionné @rcompton, il semble que vous essayez d'adapter une distribution de loi de puissance sans le savoir, mais même si vous parvenez à bien adapter une loi de puissance, il est préférable de trouver une raison pour laquelle vous pensez que c'est une loi de puissance . Il peut être suffisant de tracer Y au fil du temps, de vous diriger vers CrossValidated (ou un collège / département plus à l'aise avec les statistiques) et de passer systématiquement en revue les distributions qui pourraient vous donner à peu près ce look. Il y a d'autres en plus de la distribution de loi de puissance qui pourraient vous donner un ajustement supérieur.
Fomite
la source
+1 pour les informations. "Passez systématiquement en revue les distributions qui pourraient vous donner à peu près ce look." - où puis-je les trouver?
Erel Segal-Halevi
@ErelSegalHalevi Vous pouvez commencer par CrossValidated, ce site frère du site qui concerne les statistiques et l'analyse des données.
Fomite