Interprétation de la différence entre la distribution lognormale et la loi de puissance (distribution des degrés de réseau)

22

Tout d'abord, je ne suis pas statisticien. Cependant, j'ai fait une analyse statistique du réseau pour mon doctorat.

Dans le cadre de l'analyse du réseau, j'ai tracé une fonction de distribution cumulative complémentaire (CCDF) des degrés de réseau. Ce que j'ai trouvé, c'est que, contrairement aux distributions de réseau conventionnelles (par exemple WWW), la distribution est mieux ajustée par une distribution log-normale. J'ai essayé de l'adapter à une loi de puissance et en utilisant les scripts Matlab de Clauset et al, j'ai trouvé que la queue de la courbe suit une loi de puissance avec une coupure.

entrez la description de l'image ici

La ligne pointillée représente l'ajustement de la loi de puissance. La ligne violette représente un ajustement log-normal. La ligne verte représente l'ajustement exponentiel.

Ce que j'ai du mal à comprendre, c'est ce que tout cela signifie? J'ai lu cet article de Newman qui aborde légèrement ce sujet: http://arxiv.org/abs/cond-mat/0412004

Voici ma conjecture sauvage:

Si la distribution des degrés suit une distribution de loi de puissance, je comprends que cela signifie qu'il y a un attachement préférentiel linéaire dans la distribution des liens et du degré de réseau (riche devient plus riche ou processus de Yules).

Ai-je raison de dire qu'avec la distribution lognormale dont je suis témoin, il y a une fixation préférentielle sublinéaire au début de la courbe et devient plus linéaire vers la queue où elle peut être ajustée par une loi de puissance?

De plus, comme une distribution log-normale se produit lorsque le logarithme de la variable aléatoire (disons X) est normalement distribué, cela signifie-t-il que dans une distribution log-normale, il y a plus de petites valeurs de X et moins de grandes valeurs de X qu'un variable aléatoire qui suit une loi de puissance aurait?

Plus important encore, en ce qui concerne la distribution des degrés de réseau, une connexion préférentielle log-normale suggère-t-elle toujours un réseau sans échelle? Mon instinct me dit que puisque la queue de la courbe peut être ajustée par une loi de puissance, le réseau peut encore être conclu comme présentant des caractéristiques sans échelle.

curve-fitting networks lognormal power-law Mike
la source

2

Mike, je pense qu'il serait très intéressant de voir l'intrigue que vous regardez. Pourriez-vous modifier votre réponse pour l'inclure? Une chose que j'ai immédiatement remarquée est que l'implication concernant les lois de puissance et l'attachement préférentiel est à l'envers. Alors que (certains) schémas d'attachement préférentiels génèrent des distributions de degrés de loi de puissance, l'implication inverse n'est pas vraie (c'est-à-dire que ce n'est pas le seul moyen). Certaines informations sur le type de réseau que vous regardez peuvent également être utiles. À votre santé.

Cardinal

1

Je veux dire que l'attachement préférentiel est simplement un autre nom pour l'effet "riche devient plus riche", n'est-ce pas? Si tel est le cas, la distribution linéaire des degrés de réseau (loi de puissance) n'est que l'une des nombreuses distributions de degrés qui peuvent démontrer un attachement préférentiel? En d'autres termes, tant que le gradient de la courbe est négatif sur un tracé log-log, il existe alors des éléments d'attachement préférentiel, quelle que soit la distribution? Ensuite, la différence entre la distribution des degrés log-normaux et de loi de puissance n'est pas tant sur la question de savoir s'il existe un attachement préférentiel que sur sa proportionnalité.

Mike

1

Notez que l'attachement préférentiel est un processus (stochastique) qui génère des distributions de degrés de loi de puissance pour un réseau. La pente de la ligne changera en fonction de l'exposant de mise à l'échelle pour une loi de puissance, mais dans le cas d'une log-normale, le tracé ne sera pas linéaire, même dans la queue. Le gradient d'une distribution de survie sera toujours négatif quel que soit l'effet. (Pourquoi?)

Cardinal

C'est un très bon montage. Merci, Michael! L'ajustement log-normal dans la région que vous avez montrée est assez remarquable. On dirait qu'il pourrait se casser un peu dans la queue.

Cardinal

Merci encore pour votre réponse, cardinal. Êtes-vous d'accord pour dire que l'attachement préférentiel est toujours à l'œuvre dans le réseau que j'observe? Une autre question qui mène à la question est de savoir si le réseau est sans échelle. Si l'attachement préférentiel est à l'œuvre dans le réseau et tant que le réseau accepte de nouveaux membres, le réseau peut être classé comme sans échelle même si la distribution des degrés du réseau n'est pas linéaire. C'est là que je ne suis pas très sûr.

Mike

12

Je pense qu'il sera utile de séparer la question en deux parties:

Quelle est la forme fonctionnelle de votre distribution empirique? et
Qu'implique cette forme fonctionnelle dans le processus de génération de votre réseau?

La première question est une question de statistiques. Si vous avez appliqué les méthodes de Clauset et al. pour ajuster la distribution de loi de puissance et ces méthodes vous ont donné un pour l'ajustement de la queue supérieure, alors vous êtes autorisé à dire que la queue supérieure (en regardant votre figure, c'est ou plus) est plausible loi de puissance distribuée. Si les méthodes vous ont donné alors vous ne pouvez pas dire cela, même si l'ajustement semble bon à l'œil. Décider si l'ajustement log-normal est meilleur signifie essentiellement faire la même chose. Pouvez-vous rejeter ce modèle en tant que processus de génération des données de distribution des degrés dont vous disposez? Si ce n'est pas le cas, vous êtes autorisé à placer le log-normal dans la catégorie "plausible". $p>0.1$ $x\geq15$ $p<0.1$

En tant que petit point technique, les degrés sont des quantités entières, tandis qu'une distribution log-normale nécessite une variable continue, de sorte que les deux ne sont pas vraiment compatibles (sauf si vous ne parlez que de lorsque la différence entre les entiers et les valeurs réelles pour ces types des questions devient négligeable). Pour faire les statistiques correctement, vous voudriez écrire le pdf pour une quantité entière distribuée "log-normalement", dériver des estimateurs pour cela et les appliquer à vos données. $x\gg1$

La deuxième question est en fait plus difficile des deux. Comme certaines personnes l'ont souligné dans les commentaires ci-dessus, il existe de nombreux mécanismes qui produisent des distributions de lois de puissance et l'attachement préférentiel (dans toutes ses variations et sa gloire) n'est que l'un des nombreux. Ainsi, l'observation d'une distribution de loi de puissance dans vos données (même une véritable qui passe les tests statistiques nécessaires) n'est pas une preuve suffisante pour conclure que le processus de génération était un attachement préférentiel. Ou, plus généralement, si vous avez un mécanisme A qui produit un modèle X dans les données (par exemple, une distribution de degré log-normale dans votre réseau). L'observation du modèle X dans vos données ne prouve pas que vos données ont été produites par le mécanisme A. Les données sont cohérentes avec A, mais cela ne signifie pas que A est le bon mécanisme.

Pour vraiment montrer que A est la réponse, vous devez tester directement ses hypothèses mécanistes et montrer qu'elles valent également pour votre système, et de préférence montrer également que d'autres prédictions du mécanisme sont également valables dans les données. Sid Redner (voir la figure 4 de cet article ) a fait un très bon exemple de la partie de test d'hypothèse , dans laquelle il a montré que pour les réseaux de citation, l'hypothèse d'attachement préférentiel linéaire tient réellement dans les données.

Enfin, le terme «réseau sans échelle» est surchargé dans la littérature, je suggère donc fortement de l'éviter. Les gens l'utilisent pour se référer aux réseaux avec des distributions de degrés de loi de puissance etaux réseaux développés par attachement préférentiel (linéaire). Mais comme nous venons de l'expliquer, ces deux choses ne sont pas identiques, donc utiliser un seul terme pour désigner les deux est tout simplement déroutant. Dans votre cas, une distribution log-normale est complètement incompatible avec le mécanisme classique d'attachement préférentiel linéaire, donc si vous décidez que log-normal est la réponse à la question 1 (dans ma réponse), cela impliquerait que votre réseau n'est pas ' échelle libre »dans ce sens. Le fait que la queue supérieure soit `` correcte '' en tant que distribution de loi de puissance n'aurait aucun sens dans ce cas, car il y a toujours une partie de la queue supérieure de toute distribution empirique qui passera ce test (et elle passera parce que le test perd de la puissance quand il n'y a pas beaucoup de données, ce qui se passe exactement dans la queue supérieure extrême).

aaronclauset
la source

avez-vous confondu <et> lorsque vous parliez de la valeur de p pour l'ajustement de la queue supérieure?

David Nathan

Les conditions de la valeur de p dans ce commentaire sont correctes. Les valeurs p mentionnées ici proviennent de la section 4.1 de arxiv.org/abs/0706.1062 , où les grandes valeurs représentent les bons ajustements et les petites valeurs représentent les mauvais ajustements. Voir notamment la note 8 en bas de page 17.

Jonathan S.

3

Une telle question cool. J'ai une conversation à ce sujet associée à une question que j'ai posée ailleurs sur CrossValidated. Là, j'ai demandé si la distribution gamma était une bonne distribution à utiliser dans une simulation d'un réseau social où la probabilité de liens est endogène à une certaine "popularité" caractéristique des nœuds. @NickCox m'a suggéré d'utiliser à la place la distribution lognormale. J'ai répondu que la distribution lognormale a une justification théorique comme processus sous-jacent décrivant la popularité parce que la popularité pourrait être interprétée comme le produit de nombreuses variables aléatoires à valeur positive (par exemple, la richesse, le revenu, la taille, les prouesses sexuelles, les prouesses de combat, le QI). Cela a plus de sens pour moi que la justification théorique de la loi de puissance, et cela coïncide avec les données empiriques, ce qui suggère que la forme de la loi de puissance est trop rigide pour expliquer la variation entre réseaux dans la distribution des degrés. Le lognormal, par comparaison, a une forme très flexible, le mode se rapprochant de zéro pour une variance élevée. En outre, il est logique que l'asymétrie de la distribution des degrés augmente avec la variance due à l'effet d'attachement préférentiel.

En résumé, je pense que la distribution lognormale correspond le mieux à vos données car la distribution lognormale décrit mieux le processus sous-jacent de formation de la distribution des degrés que la loi de puissance ou les distributions exponentielles.

Équilibre des sarrasins
la source

2

Venir sur ce site après avoir compté mes distributions de bulles et utilisé la loi de puissance pour les données de viscosité.

Parcourez les exemples d'ensembles de données dans l'article sur la loi de puissance de Clauset et al. ils ont mis en place de véritables horreurs des ensembles de données, loin des ensembles de données de la loi de puissance pour soutenir leur argument. Par simple bon sens, je n'aurais certainement pas essayé d'adapter une fonction de loi de puissance à l'ensemble des données pour la plupart d'entre elles. Cependant, le comportement d'auto-évolutivité dans le monde réel peut être valide sur une partie d'un système observé, mais se décomposer lorsque certaines propriétés du système atteignent une limite physique ou fonctionnelle.

Les articles très lisibles ci-dessous se réfèrent à l'ajustement de la courbe de croissance pour les écologistes, avec une bonne discussion sur la loi de puissance et les distributions associées, basée sur des modèles d'observation du comportement de la population.

L'auteur est beaucoup plus pragmatique que Clauset et al. Citant: "... si l'objectif n'est qu'un meilleur ajustement et que les échelles en dehors de la fenêtre d'échelle de l'ensemble de données ne sont pas discutées, tout modèle peut suffire étant donné qu'il produit un bon ajustement et ne produit aucun maximum ou minimum à l'intérieur de la fenêtre d'échelle étudiée . " «On est souvent obligé de s'adapter au même modèle, comme d'autres chercheurs l'ont appliqué à leurs données, afin de pouvoir comparer les valeurs des paramètres, mais on peut le faire en plus de l'application d'un meilleur modèle d'ajustement ou de modèles avec de meilleurs résultats attendus. ou les deux. " Mots reposants.

Tjørve, E. (2003). Formes et fonctions des courbes espèces-aires: examen des modèles possibles. Journal of Biogeography, 30 (6), 827-835.

Tjørve, E. (2009). Formes et fonctions des courbes espèces-aires (ii): examen des nouveaux modèles et paramétrisations. Journal of Biogeography, 36 (8), 1435-1445.

TerryW
la source

1

Les résultats ci-dessus montrent que la distribution des degrés peut être à la fois la loi de puissance et la lognormale, ce qui peut suggérer que des propriétés libres de petit monde et d'échelle coexistent dans le réseau étudié. Pour examiner si le réseau est sans échelle (avec un paramètre d'échelle constant) avec une connexion préférentielle, une conception expérimentale est souvent requise. Dans l'article de Sid Redner mentionné ci-dessus, le taux de croissance est utilisé pour comprendre le mécanisme de croissance. Tandis que Gallos, Song et Makse utilisent des boîtes pour couvrir le réseau et concluent que la distribution des degrés du réseau suit la distribution de la loi de puissance, si NB (lB) ~ lB ^ -dB. Ou en examinant les relations entre le coefficient de cluster et le degré (si la relation satisfait la loi de puissance). Sinon, il est discuté que les réseaux hiérarchiques ont à la fois des propriétés de réseau libre de petit monde et d'échelle. (en tapant l'échelle fractale gratuitement,

liandexinshi
la source

Interprétation de la différence entre la distribution lognormale et la loi de puissance (distribution des degrés de réseau)

Réponses: