Comment mesurer la non-uniformité d'une distribution?

28

J'essaie de trouver une métrique pour mesurer la non-uniformité d'une distribution pour une expérience que je lance. J'ai une variable aléatoire qui devrait être uniformément distribuée dans la plupart des cas, et j'aimerais pouvoir identifier (et peut-être mesurer le degré de) des exemples d'ensembles de données où la variable n'est pas uniformément distribuée dans une certaine marge.

Un exemple de trois séries de données avec chacune 10 mesures représentant la fréquence de l'occurrence de quelque chose que je mesure pourrait être quelque chose comme ceci:

a: [10% 11% 10%  9%  9% 11% 10% 10% 12%  8%]
b: [10% 10% 10%  8% 10% 10%  9%  9% 12%  8%]
c: [ 3%  2% 60%  2%  3%  7%  6%  5%  5%  7%]   <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]

J'aimerais pouvoir distinguer les distributions comme c de celles comme a et b, et mesurer l'écart de c par rapport à une distribution uniforme. De manière équivalente, s'il existe une métrique pour savoir à quel point une distribution est uniforme (écart std proche de zéro?), Je peux peut-être l'utiliser pour distinguer celles avec une variance élevée. Cependant, mes données peuvent simplement avoir une ou deux valeurs aberrantes, comme l'exemple c ci-dessus, et je ne sais pas si cela sera facilement détectable de cette façon.

Je peux pirater quelque chose pour le faire dans un logiciel, mais je cherche des méthodes / approches statistiques pour le justifier formellement. J'ai pris un cours il y a des années, mais les statistiques ne sont pas mon domaine. Cela semble être quelque chose qui devrait avoir une approche bien connue. Désolé si tout cela est complètement à tête d'os. Merci d'avance!

JJC
la source
Connexes: stats.stackexchange.com/questions/66186/…
kjetil b halvorsen

Réponses:

18

Si vous avez non seulement les fréquences mais les nombres réels, vous pouvez utiliser un test d'ajustement de pour chaque série de données. En particulier, vous souhaitez utiliser le test pour une distribution uniforme discrète . Cela vous donne un bon test , qui vous permet de savoir quelles séries de données ne sont pas susceptibles d'avoir été générées par une distribution uniforme, mais ne fournit pas une mesure d'uniformité.χ2

Il existe d'autres approches possibles, telles que le calcul de l' entropie de chaque série - la distribution uniforme maximise l'entropie, donc si l'entropie est étrangement faible, vous concluriez que vous n'avez probablement pas de distribution uniforme. Cela fonctionne comme une mesure d'uniformité dans un certain sens.

Une autre suggestion serait d'utiliser une mesure comme la divergence de Kullback-Leibler , qui mesure la similitude de deux distributions.

MånsT
la source
J'ai quelques questions concernant votre réponse: 1. Pourquoi déclarez-vous que le chi carré ne donne pas une certaine uniformité? Un test d'ajustement avec une distribution uniforme n'est-il pas une mesure d'uniformité? 2. Comment savoir quand utiliser le chi carré ou l'entropie?
kanzen_master
@kanzen_master: Je suppose que la statistique du chi carré peut être considérée comme une mesure d'uniformité, mais elle présente certains inconvénients, tels que le manque de convergence, la dépendance à l'égard des casiers placés arbitrairement, que le nombre de comptes attendus dans les cellules a besoin être suffisamment grand, etc. La mesure / le test à utiliser est cependant une question de goût, et l'entropie n'est pas sans poser de problèmes non plus (en particulier, il existe de nombreux estimateurs différents de l'entropie d'une distribution). Pour moi, l'entropie semble être une mesure moins arbitraire et plus facile à interpréter.
MånsT
8

En plus des bonnes idées de @MansT, vous pourriez trouver d'autres mesures, mais cela dépend de ce que vous entendez par «non-uniformité». Pour rester simple, regardons 4 niveaux. Une uniformité parfaite est facile à définir:

25 25 25 25

mais lequel des énoncés suivants est le plus non uniforme?

20 20 30 30 ou 20 20 25 35

ou sont-ils également non uniformes?

si vous pensez qu'ils sont également non uniformes, vous pouvez utiliser une mesure basée sur la somme des valeurs absolues des écarts par rapport à la normale, mise à l'échelle par le maximum possible. Alors le premier est 5 + 5 + 5 + 5 = 20 et le second est 5 + 5 + 0 + 10 = 20. Mais si vous pensez que le second est plus non uniforme, vous pouvez utiliser quelque chose basé sur les écarts au carré, auquel cas le obtient d'abord 25 + 25 + 25 + 25 = 100 et le second obtient 25 + 25 + 0 + 100 = 150.

Peter Flom - Réintégrer Monica
la source
1
Vous semblez interpréter "uniformément distribué" comme "égal", Peter. Que ce soit l'intention du PO est un point valable à soulever, mais devrait vraiment apparaître comme un commentaire à la question.
whuber
Salut @whuber Cela semblait être ce qu'il voulait dire, d'après la question. Qu'est-ce que cela pourrait signifier d'autre?
Peter Flom - Réintègre Monica
2
"Égal" signifie que le CDF est pour x μ , F ( x ) = 0 pour x < μ tandis que "uniforme" signifie F ( x ) = ( x - α ) / θ pour x [ α , α + θ ] . Vous définissez "uniformité parfaite" dans le premier sens tandis que le sens statistique standard est le second.F(X)=1XμF(X)=0X<μF(X)=(X-α)/θX[α,α+θ]
whuber
@whuber, il me semble que la première chose est plus proche de ce que l'affiche originale voulait dire par "uniforme". En y repensant, il semble qu'il / elle utilisait «uniforme» pour signifier «faible variance».
Macro
C'est juste ça, Macro: on ne peut pas vraiment dire. La question doit être clarifiée avant qu'elle mérite une réponse, à mon humble avis. La réponse acceptée suggère que le PO utilisé était "uniforme" au sens statistique habituel.
whuber
6

Voici une heuristique simple: si vous supposez des éléments dans n'importe quelle somme vectorielle à (ou normalisez simplement chaque élément avec la somme pour y parvenir), alors l'uniformité peut être représentée par la norme L2, qui va de 11 à1,détant la dimension des vecteurs.11

La borne inférieure correspond àuniformité et à la borne supérieure1vecteur -hot.11

Pour mettre cela à l'échelle entre et 1 , vous pouvez utiliser n 01, oùnest la norme L2.n-1-1n

1

0.10    0.11    0.10    0.09    0.09    0.11    0.10    0.10    0.12    0.08
0.10    0.10    0.10    0.08    0.12    0.12    0.09    0.09    0.12    0.08
0.03    0.02    0.61    0.02    0.03    0.07    0.06    0.05    0.06    0.05

0,00280,00510,4529 pour les lignes:

d=size(m,2); 
for i=1:size(m); 
    disp( (norm(m(i,:))*sqrt(d)-1) / (sqrt(d)-1) ); 
end
user495285
la source
1
Lp
@whuber que je ne sais pas et je ne connais aucune recherche à ce sujet. Fondamentalement, c'est quelque chose que j'ai utilisé comme heuristique qui pourrait correspondre à ce que OP est après, et je ne prétends pas vraiment que ce soit une approche préférée.
user495285
@whuber - Pourriez-vous comprendre en théorie pourquoi cela fonctionne si bien. Je dois citer ceci.
Ketan
@ user495285 - Cela semble fonctionner directement avec les valeurs, et pas seulement les fréquences. D'après votre expérience, est-il préférable de ne l'utiliser qu'avec des fréquences ou est-il acceptable de l'utiliser directement sur un vecteur.
Ketan
L2χ2
0

Je suis tombé sur ce sujet récemment et pour ajouter à la réponse de @ user495285, pour autant que je le comprenne:

RnLppRnp

L2p

n-1-1
nL2

Je crois que l'utilité des mesures géométriques s'applique lorsque chaque position (dimension) de l'espace décrit est supposée être mesurée à des échelles équivalentes, par exemple tous les comptes de distribution potentiellement égale. Les mêmes hypothèses qui sous-tendent le changement de bases comme PCA / SVD sont probablement similaires ici. Mais là encore, je ne suis pas un mathématicien, je vais donc laisser cela ouvert aux plus avertis.

lakinsm
la source
Cela semble utile. Pourriez-vous, s'il vous plaît, m'indiquer quelques références afin que je puisse mieux comprendre cela? Je dois en fait citer cela.
Ketan
Vous pouvez citer n'importe quel texte d'algèbre linéaire qui couvre la norme Lp; c'est un sujet très courant en géométrie: comment calculer une distance entre deux points dans un espace à N dimensions. Vous n'aurez peut-être même pas à le citer en fonction de votre domaine.
lakinsm