J'entreprends un projet d'analyse de données qui consiste à enquêter sur les temps d'utilisation du site Web au cours de l'année. Ce que je voudrais faire, c'est comparer la "cohérence" des modèles d'utilisation, par exemple, leur proximité avec un modèle qui implique de l'utiliser une heure par semaine, ou un qui implique de l'utiliser pendant 10 minutes à la fois, 6 fois par semaine. Je connais plusieurs choses qui peuvent être calculées:
- Entropie de Shannon: mesure à quel point la «certitude» du résultat diffère, c'est-à-dire à quel point une distribution de probabilité diffère d'une distribution uniforme;
- Divergence de Kullback-Liebler: mesure à quel point une distribution de probabilité diffère d'une autre
- Divergence Jensen-Shannon: similaire à la divergence KL, mais plus utile car elle renvoie des valeurs finies
- Test de Smirnov-Kolmogorov : un test pour déterminer si deux fonctions de distribution cumulative pour des variables aléatoires continues proviennent du même échantillon.
- Test du chi carré: un test d'ajustement pour déterminer dans quelle mesure une distribution de fréquence diffère d'une distribution de fréquence attendue.
Ce que je voudrais faire, c'est comparer la différence entre les durées d'utilisation réelles (bleu) et les temps d'utilisation idéaux (orange) dans la distribution. Ces distributions sont discrètes et les versions ci-dessous sont normalisées pour devenir des distributions de probabilité. L'axe horizontal représente le temps (en minutes) qu'un utilisateur a passé sur le site Web; cela a été enregistré pour chaque jour de l'année; si l'utilisateur n'est pas du tout allé sur le site Web, cela compte comme une durée nulle, mais ceux-ci ont été supprimés de la distribution de fréquence. À droite, la fonction de distribution cumulative.
Mon seul problème est que, même si je peux obtenir la divergence JS pour retourner une valeur finie, lorsque je regarde différents utilisateurs et compare leurs distributions d'utilisation à l'idéal, j'obtiens des valeurs qui sont pour la plupart identiques (ce qui n'est donc pas un bon indicateur de leur différence). De plus, beaucoup d'informations sont perdues lors de la normalisation des distributions de probabilité plutôt que des distributions de fréquence (par exemple, un étudiant utilise la plate-forme 50 fois, puis la distribution bleue doit être mise à l'échelle verticalement de sorte que le total des longueurs des barres soit égal à 50, et la barre orange doit avoir une hauteur de 50 plutôt que 1). Une partie de ce que nous entendons par «cohérence» est de savoir si la fréquence à laquelle un utilisateur visite le site Web affecte le montant qu'il en retire; si le nombre de fois où ils visitent le site Web est perdu, la comparaison des distributions de probabilité est un peu douteuse; même si la distribution de probabilité de la durée d'un utilisateur est proche de l'utilisation "idéale", cet utilisateur peut n'avoir utilisé la plate-forme que pendant une semaine au cours de l'année, ce qui n'est sans doute pas très cohérent.
Existe-t-il des techniques bien établies pour comparer deux distributions de fréquences et calculer une sorte de métrique qui caractérise leur similitude (ou leur dissemblance)?
la source
Réponses:
Vous pouvez être intéressé par la distance du moteur de la Terre , également connue sous le nom de métrique Wasserstein . Il est implémenté en R (regardez le
emdist
paquet) et en Python . Nous avons également un certain nombre de discussions dessus .L'EMD fonctionne pour les distributions continues et discrètes. Le
emdist
package pour R fonctionne sur des distributions discrètes.la source
Si vous échantillonnez au hasard un individu de chacune des deux distributions, vous pouvez calculer une différence entre elles. Si vous répétez cela (avec remplacement) plusieurs fois, vous pouvez générer une distribution des différences qui contient toutes les informations que vous recherchez. Vous pouvez tracer cette distribution et la caractériser avec les statistiques récapitulatives que vous désirez - moyennes, médianes, etc.
la source
L'une des mesures est la distance de Hellinger entre deux distributions qui sont caractérisées par des moyennes et des écarts-types. L'application se trouve dans l'article suivant.
https://www.sciencedirect.com/science/article/pii/S1568494615005104
la source