J'essaie de trouver une métrique pour mesurer la non-uniformité d'une distribution pour une expérience que je lance. J'ai une variable aléatoire qui devrait être uniformément distribuée dans la plupart des cas, et j'aimerais pouvoir identifier (et peut-être mesurer le degré de) des exemples d'ensembles de données où la variable n'est pas uniformément distribuée dans une certaine marge.
Un exemple de trois séries de données avec chacune 10 mesures représentant la fréquence de l'occurrence de quelque chose que je mesure pourrait être quelque chose comme ceci:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
J'aimerais pouvoir distinguer les distributions comme c de celles comme a et b, et mesurer l'écart de c par rapport à une distribution uniforme. De manière équivalente, s'il existe une métrique pour savoir à quel point une distribution est uniforme (écart std proche de zéro?), Je peux peut-être l'utiliser pour distinguer celles avec une variance élevée. Cependant, mes données peuvent simplement avoir une ou deux valeurs aberrantes, comme l'exemple c ci-dessus, et je ne sais pas si cela sera facilement détectable de cette façon.
Je peux pirater quelque chose pour le faire dans un logiciel, mais je cherche des méthodes / approches statistiques pour le justifier formellement. J'ai pris un cours il y a des années, mais les statistiques ne sont pas mon domaine. Cela semble être quelque chose qui devrait avoir une approche bien connue. Désolé si tout cela est complètement à tête d'os. Merci d'avance!
Réponses:
Si vous avez non seulement les fréquences mais les nombres réels, vous pouvez utiliser un test d'ajustement de pour chaque série de données. En particulier, vous souhaitez utiliser le test pour une distribution uniforme discrète . Cela vous donne un bon test , qui vous permet de savoir quelles séries de données ne sont pas susceptibles d'avoir été générées par une distribution uniforme, mais ne fournit pas une mesure d'uniformité.χ2
Il existe d'autres approches possibles, telles que le calcul de l' entropie de chaque série - la distribution uniforme maximise l'entropie, donc si l'entropie est étrangement faible, vous concluriez que vous n'avez probablement pas de distribution uniforme. Cela fonctionne comme une mesure d'uniformité dans un certain sens.
Une autre suggestion serait d'utiliser une mesure comme la divergence de Kullback-Leibler , qui mesure la similitude de deux distributions.
la source
En plus des bonnes idées de @MansT, vous pourriez trouver d'autres mesures, mais cela dépend de ce que vous entendez par «non-uniformité». Pour rester simple, regardons 4 niveaux. Une uniformité parfaite est facile à définir:
25 25 25 25
mais lequel des énoncés suivants est le plus non uniforme?
20 20 30 30 ou 20 20 25 35
ou sont-ils également non uniformes?
si vous pensez qu'ils sont également non uniformes, vous pouvez utiliser une mesure basée sur la somme des valeurs absolues des écarts par rapport à la normale, mise à l'échelle par le maximum possible. Alors le premier est 5 + 5 + 5 + 5 = 20 et le second est 5 + 5 + 0 + 10 = 20. Mais si vous pensez que le second est plus non uniforme, vous pouvez utiliser quelque chose basé sur les écarts au carré, auquel cas le obtient d'abord 25 + 25 + 25 + 25 = 100 et le second obtient 25 + 25 + 0 + 100 = 150.
la source
Voici une heuristique simple: si vous supposez des éléments dans n'importe quelle somme vectorielle à (ou normalisez simplement chaque élément avec la somme pour y parvenir), alors l'uniformité peut être représentée par la norme L2, qui va de 11 à1,détant la dimension des vecteurs.1ré√ 1 ré
La borne inférieure correspond àuniformité et à la borne supérieure1vecteur -hot.1ré√ 1
Pour mettre cela à l'échelle entre et 1 , vous pouvez utiliser n ∗ √0 1 , oùnest la norme L2.n ∗ d√- 1ré√- 1 n
la source
Je suis tombé sur ce sujet récemment et pour ajouter à la réponse de @ user495285, pour autant que je le comprenne:
Je crois que l'utilité des mesures géométriques s'applique lorsque chaque position (dimension) de l'espace décrit est supposée être mesurée à des échelles équivalentes, par exemple tous les comptes de distribution potentiellement égale. Les mêmes hypothèses qui sous-tendent le changement de bases comme PCA / SVD sont probablement similaires ici. Mais là encore, je ne suis pas un mathématicien, je vais donc laisser cela ouvert aux plus avertis.
la source