Qu'est-ce que cela signifie lorsque tous les bords d'un réseau / graphique du monde réel sont statistiquement tout aussi susceptibles de se produire par hasard?

11

J'ai utilisé la méthode d'extraction de réseau fédérateur décrite dans cet article: http://www.pnas.org/content/106/16/6483.abstract

Fondamentalement, les auteurs proposent une méthode basée sur des statistiques qui produit une probabilité, pour chaque bord du graphique, que le bord aurait pu arriver par hasard. J'utilise le seuil de signification statistique typique de 0,05.

J'ai appliqué cette méthode à plusieurs réseaux du monde réel et, fait intéressant, certains réseaux se retrouvent sans bords aussi importants. J'essaie de comprendre ce que cela implique pour le réseau. La seule autre fois où j'ai appliqué la méthode à un réseau et où aucun bord n'était aussi significatif, c'est lorsque j'ai appliqué la méthode à des réseaux aléatoires que j'ai générés, ce qui est exactement ce à quoi nous nous attendions.

À titre d'exemple de réseau dans le monde réel, vous avez peut-être vu la récente visualisation du réseau qui s'est déroulée sur The Economist montrant la polarisation du Sénat américain au cours des 25 dernières années: http://www.economist.com/news/united-states/21591190 -united-states-amoeba . J'ai appliqué la méthode d'extraction du réseau dorsal à ces réseaux et aucun bord n'est apparu aussi important. Même si les bords bruts montrent apparemment un attachement et un regroupement préférentiels, est-ce juste par hasard? Le réseau du réseau de vote du Sénat est-il essentiellement aléatoire?

Randy Olson
la source

Réponses:

6

L'hypothèse nulle derrière les méthodes de base est

[Les] poids normalisés qui correspondent aux connexions d'un certain nœud de degré k sont produits par une affectation aléatoire à partir d'une distribution uniforme.

S'il n'y a pas de bords "significatifs", l'hypothèse nulle est valable pour tout le graphe, c'est-à-dire que les poids des bords résultent des propensions nodales à envoyer et recevoir des liens.

Selon les relations que vous analysez, la méthode de base peut ne pas être appropriée. La méthode fonctionne mieux pour les réseaux qui sont conceptuellement des réseaux pondérés en mode unique. Les réseaux à deux modes peuvent être projetés comme un réseau à un mode pondéré, mais cela n'a souvent aucun sens de le faire.

S'inspirant de votre exemple dans The Economist, il n'est pas logique d'analyser le vote au Sénat comme un réseau à un mode pondéré par le nombre de votes partagés. Le vote au Sénat est une relation signée à deux modes. Les sénateurs (i) sont liés à un projet de loi (j) et s'abstiennent de voter (0) ou votent pour (+1) ou contre (-1) la législation. Transformer le réseau en un réseau d'accord à un mode pondéré, puis effectuer une analyse de la dorsale sur celui-ci serait une réduction importante des données. Certaines lois sont plus conflictuelles politiquement et certaines ont plus de voix que d'autres - les méthodes de base ne captureraient pas ces mécanismes.

Vous pouvez envisager des tests CUG (Conditional Uniform Graph) au lieu des méthodes de dorsale. L'idée derrière ces tests est de déterminer si certaines propriétés au niveau du graphe (par exemple, le regroupement, la longueur moyenne du chemin, la centralisation, l'homophilie) résultent du hasard. Le processus est le suivant:

  1. Prendre la mesure f du graphique observé
  2. Générez un graphique aléatoire qui contrôle certaines propriétés du graphique observé (par exemple, taille, nombre d'arêtes, distribution des degrés, etc.)
  3. Prendre la mesure f du graphique aléatoire
  4. Répétez les étapes 2 et 3 plusieurs fois (par exemple, 1000) pour produire une distribution nulle
  5. Comparer la mesure observée à la distribution nulle

Pour les réseaux à deux modes, il serait logique de créer le graphique aléatoire en permutant le graphique observé (tnet et statnet dans R ont des routines pour permuter les réseaux à deux modes). Si la mesure f nécessite un réseau à un mode, le processus de randomisation doit être effectué sur le réseau à deux modes avant de le projeter comme un réseau à un seul mode.

BenjaminLind
la source
4

Dans l'article que vous citez, les auteurs considèrent que, dans un réseau complexe, "[les] nœuds représentent les éléments du système [modélisé] et les bords pondérés identifient la présence d'une interaction et sa force relative" (souligné par moi) .

Dans le réseau que vous étudiez, si je comprends bien l'article de l'économiste, il y a un lien entre 2 sénateurs s'ils ont voté de la même façon au moins 100 fois. Ainsi, les liens ne modélisent pas les interactions, mais les similitudes (entre les comportements de vote des sénateurs). D'après mon expérience, les réseaux de similarité ne présentent pas la même distribution de degrés que les réseaux d'interaction, en ce sens qu'ils ne sont pas aussi hétérogènes. De plus, le paramètre seuil utilisé lors de l'extraction du réseau (ici: 100) a parfois un fort effet sur la distribution des degrés.

De plus, je n'ai trouvé aucune mention de poids dans l'article de The Economist. Pourtant, la présence de poids semble être un point important dans la méthode décrite dans les travaux d'Ángeles Serrano et al . vous citez dans votre question.

A partir de ces deux observations, il semble possible que la méthode ne fonctionne pas correctement sur ces données car elle n'a pas été conçue pour traiter des réseaux de ce type. Peut-être pouvez-vous vérifier la distribution des degrés: est-elle centrée sur une valeur caractéristique ou hétérogène? Et qu'en est-il des poids, y en a-t-il?

Vincent Labatut
la source
J'ai reproduit les données moi-même à partir du site Web source, j'ai donc inclus des poids et n'ai pas appliqué le seuil de coupure arbitraire. Ainsi, je pense que les données auxquelles j'ai appliqué la méthode de base ne devraient pas avoir été affectées par ces problèmes. Bonne idée sur la vérification de la distribution des diplômes - je vais devoir y jeter un œil!
Randy Olson