Supposons que j'ai un vecteur ordonné où le premier élément est le nombre de visites d'un site Web dans une période donnée par l'IP unique avec le plus grand nombre de visites, le deuxième élément est le nombre de visites par l'IP unique avec le second le plus grand nombre de visites, etc. Je comprends qu'il peut y avoir des variations par site, mais y a-t-il en général un motif supposé à la forme de ce vecteur? Est-ce que cela suit, par exemple, une distribution de loi de puissance?
14
Réponses:
Non, les visiteurs uniques d'un site Web ne respectent pas une loi de puissance.
Au cours des dernières années, il y a eu une rigueur croissante dans le test des réclamations en vertu de la loi sur l'énergie (par exemple, Clauset, Shalizi et Newman 2009). Apparemment, les revendications antérieures n'étaient souvent pas bien testées et il était courant de tracer les données sur une échelle log-log et de s'appuyer sur le "test du globe oculaire" pour démontrer une ligne droite. Maintenant que les tests formels sont plus courants, de nombreuses distributions s'avèrent ne pas suivre les lois de puissance.
Ali et Scarr (2007) et Clauset, Shalizi et Newman (2009) sont les deux meilleures références que je connaisse qui examinent les visites des utilisateurs sur le Web.
Ali et Scarr (2007) ont examiné un échantillon aléatoire de clics d'utilisateurs sur un site Web de Yahoo et ont conclu:
Voici un histogramme des clics des utilisateurs individuels sur un mois et leurs mêmes données sur un graphique log-log, avec différents modèles qu'ils ont comparés. Les données ne sont clairement pas sur une ligne droite log-log attendue d'une distribution d'énergie sans échelle.
Clauset, Shalizi et Newman (2009) ont comparé les explications de la loi de puissance avec des hypothèses alternatives en utilisant des tests de rapport de vraisemblance et ont conclu que les accès et les liens Web "ne peuvent pas être considérés comme suivant une loi de puissance". Leurs données pour les premiers étaient des visites sur le Web par les clients du service Internet America Online en une seule journée et pour les seconds, des liens vers des sites Web trouvés dans une exploration de 1997 d'environ 200 millions de pages Web. Les images ci-dessous donnent les fonctions de distribution cumulative P (x) et leurs ajustements de loi de puissance de probabilité maximale.
Pour ces deux ensembles de données, Clauset, Shalizi et Newman ont constaté que les distributions de puissance avec des cuto exps exponentielles pour modifier la queue extrême de la distribution étaient clairement meilleures que les distributions de loi de puissance pure et que les distributions log-normales étaient également de bons ajustements. (Ils ont également examiné des hypothèses exponentielles et exponentielles étendues.)
Si vous avez un ensemble de données en main et que vous n'êtes pas simplement curieux, vous devez l'adapter à différents modèles et les comparer (dans R: pchisq (2 * (logLik (model1) - logLik (model2)), df = 1, lower. queue = FAUX)). J'avoue que je ne sais pas du tout comment modéliser un modèle ZM ajusté à zéro. Ron Pearson a blogué sur les distributions ZM et il y a apparemment un package R zipfR. Moi, je commencerais probablement par un modèle binomial négatif mais je ne suis pas un vrai statisticien (et j'adorerais leurs avis).
(Je veux également seconder le commentateur @richiemorrisroe ci-dessus qui souligne que les données sont probablement influencées par des facteurs sans rapport avec le comportement humain individuel, comme les programmes explorant le Web et les adresses IP qui représentent les ordinateurs de nombreuses personnes.)
Articles mentionnés:
Clauset, Aaron, Cosma Rohilla Shalizi et Mark EJ Newman. "Distributions de loi de puissance dans des données empiriques." Revue SIAM 51.4 (2009): 661-703. (Voir aussi ce site)
Ali, Kamal et Mark Scarr. "Méthodologies robustes pour la modélisation des distributions de clics sur le Web." Actes de la 16e conférence internationale sur le World Wide Web. ACM, 2007.
la source