Les visiteurs uniques d'un site Web respectent-ils une loi de puissance?

14

Supposons que j'ai un vecteur ordonné où le premier élément est le nombre de visites d'un site Web dans une période donnée par l'IP unique avec le plus grand nombre de visites, le deuxième élément est le nombre de visites par l'IP unique avec le second le plus grand nombre de visites, etc. Je comprends qu'il peut y avoir des variations par site, mais y a-t-il en général un motif supposé à la forme de ce vecteur? Est-ce que cela suit, par exemple, une distribution de loi de puissance?

Jon Smark
la source
6
Les adresses IP ne correspondent pas particulièrement bien aux personnes en raison de l'adressage dynamique et de divers autres problèmes (tels que les personnes utilisant plusieurs ordinateurs). Si je voulais tester ces hypothèses, j'utiliserais probablement l'ID visiteur plutôt que l'adresse IP.
richiemorrisroe

Réponses:

23

Non, les visiteurs uniques d'un site Web ne respectent pas une loi de puissance.

Au cours des dernières années, il y a eu une rigueur croissante dans le test des réclamations en vertu de la loi sur l'énergie (par exemple, Clauset, Shalizi et Newman 2009). Apparemment, les revendications antérieures n'étaient souvent pas bien testées et il était courant de tracer les données sur une échelle log-log et de s'appuyer sur le "test du globe oculaire" pour démontrer une ligne droite. Maintenant que les tests formels sont plus courants, de nombreuses distributions s'avèrent ne pas suivre les lois de puissance.

Ali et Scarr (2007) et Clauset, Shalizi et Newman (2009) sont les deux meilleures références que je connaisse qui examinent les visites des utilisateurs sur le Web.

Ali et Scarr (2007) ont examiné un échantillon aléatoire de clics d'utilisateurs sur un site Web de Yahoo et ont conclu:

La sagesse dominante est que la distribution des clics sur le Web et des pages vues suit une distribution de loi de puissance sans échelle. Cependant, nous avons constaté qu'une description statistiquement significativement meilleure des données est la distribution Zipf-Mandelbrot sensible à l'échelle et que leurs mélanges améliorent encore l'ajustement. Les analyses précédentes ont trois inconvénients: elles ont utilisé un petit ensemble de distributions candidates, analysé le comportement Web des utilisateurs obsolètes (vers 1998) et utilisé des méthodologies statistiques douteuses. Bien que nous ne puissions pas empêcher qu'une meilleure distribution ne soit trouvée un jour, nous pouvons affirmer avec certitude que la distribution Zipf-Mandelbrot sensible à l'échelle fournit un ajustement statistiquement significativement plus fort aux données que la loi de puissance sans échelle ou Zipf sur une variété de verticales du domaine Yahoo.

Voici un histogramme des clics des utilisateurs individuels sur un mois et leurs mêmes données sur un graphique log-log, avec différents modèles qu'ils ont comparés. Les données ne sont clairement pas sur une ligne droite log-log attendue d'une distribution d'énergie sans échelle.

Figures 2 et 4 d'Ali et Scarr

Clauset, Shalizi et Newman (2009) ont comparé les explications de la loi de puissance avec des hypothèses alternatives en utilisant des tests de rapport de vraisemblance et ont conclu que les accès et les liens Web "ne peuvent pas être considérés comme suivant une loi de puissance". Leurs données pour les premiers étaient des visites sur le Web par les clients du service Internet America Online en une seule journée et pour les seconds, des liens vers des sites Web trouvés dans une exploration de 1997 d'environ 200 millions de pages Web. Les images ci-dessous donnent les fonctions de distribution cumulative P (x) et leurs ajustements de loi de puissance de probabilité maximale.

entrez la description de l'image ici

Pour ces deux ensembles de données, Clauset, Shalizi et Newman ont constaté que les distributions de puissance avec des cuto exps exponentielles pour modifier la queue extrême de la distribution étaient clairement meilleures que les distributions de loi de puissance pure et que les distributions log-normales étaient également de bons ajustements. (Ils ont également examiné des hypothèses exponentielles et exponentielles étendues.)

Si vous avez un ensemble de données en main et que vous n'êtes pas simplement curieux, vous devez l'adapter à différents modèles et les comparer (dans R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, lower. queue = FAUX)). J'avoue que je ne sais pas du tout comment modéliser un modèle ZM ajusté à zéro. Ron Pearson a blogué sur les distributions ZM et il y a apparemment un package R zipfR. Moi, je commencerais probablement par un modèle binomial négatif mais je ne suis pas un vrai statisticien (et j'adorerais leurs avis).

(Je veux également seconder le commentateur @richiemorrisroe ci-dessus qui souligne que les données sont probablement influencées par des facteurs sans rapport avec le comportement humain individuel, comme les programmes explorant le Web et les adresses IP qui représentent les ordinateurs de nombreuses personnes.)

Articles mentionnés:

MattBagg
la source
@MattBag, semble intéressant, va essayer cela dans ce cas stats.stackexchange.com/q/41286/13201
FredrikD