Comment le nombre de connexions peut-il être gaussien s'il ne peut pas être négatif?

14

J'analyse les réseaux sociaux (non virtuels) et j'observe les liens entre les gens. Si une personne choisissait une autre personne pour se connecter au hasard, le nombre de connexions au sein d'un groupe de personnes serait réparti normalement - au moins selon le livre que je lis actuellement.

Comment savoir si la distribution est gaussienne (normale)? Il existe d'autres distributions telles que Poisson, Rice, Rayliegh, etc. Le problème avec la distribution gaussienne en théorie est que les valeurs vont de à (bien que les probabilités vont vers zéro) et le nombre de connexions ne peut pas être négatif .+

Est-ce que quelqu'un sait à quelle distribution on peut s'attendre au cas où chaque personne choisirait (au hasard) une autre personne avec qui se connecter?

niko
la source
1
Clarification: la question concerne-t-elle le "nombre total de connexions pour l'ensemble du groupe" ou "le nombre total de connexions pour une personne"? Ma réponse suppose implicitement ce dernier.
1
Distribution de Riley ? C'est un nouveau pour moi. Avez-vous une référence ou un lien?
2010
3
"Rayleigh" peut-être?
whuber

Réponses:

6

Lorsqu'il y a personnes et que le nombre de connexions établies par la personne i , 1 i n , est X i , alors le nombre total de connexions est S n = n i = 1 X i / 2 . Maintenant, si nous prenons le X ini,1in,XiSn=i=1nXi/2Xi comme des variables aléatoires, supposons qu'elles sont indépendantes et que leurs variances ne sont pas "trop ​​inégales" à mesure que de plus en plus de personnes sont ajoutées au mélange, alors le théorème de limite centrale de Lindeberg-Levy s'applique. Il affirme que la fonction de distribution cumulativede la somme standardisée converge vers le cdf de la distribution normale. Cela signifie à peu près qu'un histogramme de la somme ressemblera de plus en plus à un gaussien (une "courbe en cloche") à mesure que grandit.n

Passons en revue ce que cela ne dit pas :

  • Elle n'affirme pas que la distribution de soit jamais exactement normale. Cela ne peut pas être le cas, pour les raisons que vous mentionnez.Sn

  • Cela n'implique pas que le nombre attendu de connexions converge. En fait, il doit diverger (aller à l'infini). La standardisation est un recentrage et un redimensionnement de la distribution; la quantité de rééchelonnement augmente sans limite.

  • Il ne dit rien lorsque les ne sont pas indépendants ou lorsque leurs variances changent trop à mesure que n croît. (Cependant, il existe des généralisations du CLT pour des séries de variables "légèrement" dépendantes.)Xin

whuber
la source
Notez que je n'interprète pas la question pour dire que tout le monde choisit exactement une autre personne à laquelle se connecter - cela conduirait à une théorie stérile parce que le nombre de connexions serait déterminé, pas aléatoire. Au lieu de cela, je l'ai interprété comme déclarant que tout le monde, lorsqu'il pénètre dans le réseau, choisit des connexions au hasard parmi les n autres, se terminant par 0 à n connexions au total. L'hypothèse sur les variances est assurée lorsqu'il y a une limite sur le nombre de connexions que tout nouvel arrivant établira et que ce nombre présente un caractère aléatoire "minimal".
whuber
Je suis un peu confus au sujet de et de la variance. Cela suggère-t-il que les gens ont une variance intrinsèque? Xi
Andy W
1
@Andy Not people: le nombre de connexions établies. L'important est qu'il devrait y avoir de bonnes chances que le nombre de connexions établies par les individus varie réellement et ne se stabilise pas à une constante. Lorsque cela se produit, la distribution limite (du nombre de connexions) est déterminée par le nombre fini de connexions initiales qui varient, il n'est donc pas possible d'approcher une distribution normale de manière asymptotique.
whuber
1

La réponse dépend des hypothèses que vous êtes prêt à faire. Un réseau social évolue constamment au fil du temps et n'est donc pas une entité statique. Par conséquent, vous devez faire quelques hypothèses sur la façon dont le réseau évolue au fil du temps.

n

Prob(No of connections for any individual=n1)=1

Si une personne sélectionne une autre personne au hasard pour se connecter, tout le monde sera finalement connecté.

Cependant, les réseaux réels ne se comportent pas de cette façon. Les gens diffèrent sur plusieurs aspects.

  1. À tout moment, une personne a une taille de réseau fixe et la probabilité qu'une autre connexion soit établie est fonction de la taille de son réseau (car les gens présentent d'autres personnes, etc.).

  2. Une personne a sa propre tendance intrinsèque à former une connexion (comme certains sont introvertis / exterovert, etc.).

Ces probabilités changent avec le temps, le contexte, etc. Je ne suis pas sûr qu'il y ait une réponse simple à moins que nous formulions des hypothèses sur la structure du réseau (par exemple, la densité du réseau, comment les gens se comportent, etc.).


la source
@Srikant Pourriez-vous expliquer comment vous dérivez la "réponse triviale"? (Il doit y avoir des hypothèses non énoncées derrière.) Et à quel théorème faites-vous référence lorsque vous concluez que "finalement tout le monde sera connecté"? Ce n'est pas du tout évident!
whuber
@whuber Je suppose que la taille du réseau est fixe. La question dit: Une personne choisit une autre personne au hasard pour établir une connexion et il s'agit probablement d'un processus continu. Ainsi, à mesure que le temps passe à l'infini, tout le monde devrait être connecté. Pas de théorème, juste de l'intuition. J'utilise peut-être un langage imprécis.
@Srikant Je suis toujours confus, car après un long moment, "Prob (No of connections = n)" est égal à 1 lorsque n = 3 et sinon est toujours zéro. Après tout, lorsque "tout le monde doit être connecté", le nombre de connexions est égal à n (n-1) / 2. Je soupçonne que vous pouvez avoir plusieurs processus aléatoires différents en tête en même temps. Cela pourrait aider à divulguer les hypothèses que vous faites et à être un peu plus précis.
whuber