Comment mesurer / argumenter la qualité de l'ajustement d'une ligne de tendance à une loi de puissance?

21

J'ai quelques données auxquelles j'essaye d'adapter une ligne de tendance. Je crois que les données suivent une loi de puissance, et j'ai donc tracé les données sur des axes log-log à la recherche d'une ligne droite. Cela a abouti à une ligne (presque) droite et donc dans Excel, j'ai ajouté une ligne de tendance pour une loi de puissance. Étant un statistiques newb, ma question est, quelle est maintenant la meilleure façon pour moi de passer de "bien la ligne semble correspondre assez bien" à "la propriété numérique prouve que ce graphique est ajusté de manière appropriée par une loi de puissance"? X

Dans Excel, je peux obtenir une valeur r au carré, mais étant donné ma connaissance limitée des statistiques, je ne sais même pas si cela est réellement approprié dans mes circonstances spécifiques. J'ai inclus une image ci-dessous montrant le tracé des données avec lesquelles je travaille dans Excel. J'ai un peu d'expérience avec R, donc si mon analyse est limitée par mes outils, je suis ouvert à des suggestions sur la façon de l'améliorer en utilisant R.

texte alternatif

Bryce Thomas
la source
vous pourriez trouver quelques idées ici freakonometrics.blog.free.fr/index.php?post/2010/09/29/…

Réponses:

24

Voir la page d'Aaron Clauset:

qui a des liens vers du code pour adapter les lois de puissance (Matlab, R, Python, C ++) ainsi qu'un article de Clauset et Shalizi que vous devriez lire en premier.

Vous voudrez peut-être lire d'abord les articles de blogs de Clauset et Shalizi sur le papier:

Un résumé du dernier lien pourrait être:

  • De nombreuses distributions vous donnent des lignes droites sur un tracé log-log.

  • Abuser de la régression linéaire fait pleurer le bébé Gauss.
    Ajuster une ligne à votre tracé de journal de bord par moindres carrés est une mauvaise idée.

  • Utilisez la probabilité maximale pour estimer l'exposant de mise à l'échelle.
  • Utilisez la qualité de l'ajustement pour estimer où commence la zone de mise à l'échelle.
  • Utilisez un test de qualité d'ajustement pour vérifier la qualité d'ajustement.
  • Utilisez le test de Vuong pour vérifier les alternatives et soyez prêt à être déçu.
ars
la source
1
J'appuie ceci. Il existe de nombreux exemples de quelque chose qui ressemblait à une loi de puissance, mais quand on l'examine un peu plus rigoureusement, il s'est avéré ne pas être .... et non, le R ^ 2 élevé sur le graphique n'est pas suffisant.
PeterR
"Donc vous pensez ..." est une excellente référence. Les points 1 à 6 (sur 7) répondent directement à la question posée ici.
whuber
Mais une distribution de loi de puissance n'est pas la même chose que d'adapter une relation de loi de puissance entre deux variables distinctes. J'avais supposé que la question concernait ce dernier, mais je n'en suis pas certain.
onestop
χ2
2
@JM: pas vraiment, le chi carré est sensible au binning et les fluctuations de la queue compliquent cela. Je pense que même avec le KS, ils repèsent la statistique pour les points extrêmes, et il y a une discussion sur d'autres tests. @onestop: J'ai supposé dans l'autre sens, et en relisant, vous pourriez avoir raison. Je ne suis pas vraiment sûr ..
ars
3

Si vous êtes intéressé par les fonctions de loi de puissance bivariées (par opposition aux distributions de loi de puissance univariées), alors

Warton et al. " Méthodes d'ajustement linéaire bivariées pour l'allométrie ." Biol. Rév.81, 259-201 (2006)

est une excellente référence. Dans ce cas, la régression est la bonne chose à faire, bien qu'il puisse y avoir des corrections (OLS vs. RMA, etc.) selon ce que vous voulez que les résultats de la régression signifient.


la source
Aaron - ce lien est mort, pourriez-vous en poster un nouveau?
keflavich
Merci pour cela. La plupart des informations concernent des distributions univariées qui ont tendance à enterrer des informations sur les relations bivariées ... Voici un lien vers la liste Riley onlinelibrary.wiley.com/doi/abs/10.1017/S1464793106007007
songololo