J'ai recherché sur le Web, mais je n'ai rien trouvé d'utile.
Je cherche essentiellement un moyen de mesurer la répartition «égale» d'une valeur. Comme dans, une distribution distribuée «uniformément» comme X :
et une distribution Y «inégalement répartie » d'environ la même moyenne et l'écart-type:
Mais existe-t-il une mesure de régularité m, telle que m (X)> m (Y)? S'il n'y en a pas, quelle serait la meilleure façon de créer une mesure comme celle-ci?
(Capture d'écran des images de la Khan Academy)
Réponses:
Une fonction standard, puissante, bien comprise, théoriquement bien établie et fréquemment mise en œuvre de la «régularité» est la fonction Ripley K et son proche parent, la fonction L. Bien que ceux-ci soient généralement utilisés pour évaluer les configurations de points spatiaux bidimensionnels, l'analyse nécessaire pour les adapter à une dimension (qui n'est généralement pas donnée dans les références) est simple.
Théorie
La fonction K estime la proportion moyenne de points à une distance d'un point typique. Pour une distribution uniforme sur l'intervalle [ 0 , 1 ] , la vraie proportion peut être calculée et (asymptotiquement dans la taille de l'échantillon) égale 1 - ( 1 - d ) 2 . La version unidimensionnelle appropriée de la fonction L soustrait cette valeur de K pour montrer les écarts par rapport à l'uniformité. Nous pourrions donc envisager de normaliser tout lot de données pour avoir une plage d'unités et d'examiner sa fonction L pour les écarts autour de zéro.d [0,1] 1−(1−d)2
Exemples travaillés
Pour illustrer , j'ai simulé échantillons indépendants de la taille 64 d'une distribution uniforme et tracer leur (normalisé) des fonctions de L pour des distances plus courtes (de 0 à une / 3 ), créant ainsi une enveloppe pour estimer la distribution d'échantillonnage de la fonction L. (Les points tracés bien à l'intérieur de cette enveloppe ne peuvent pas être distingués de manière significative de l'uniformité.) Sur ce point, j'ai tracé les fonctions L pour des échantillons de la même taille à partir d'une distribution en U, d'une distribution de mélange avec quatre composants évidents et d'une distribution normale standard. Les histogrammes de ces échantillons (et de leurs distributions parentes) sont présentés à titre de référence, en utilisant des symboles linéaires pour correspondre à ceux des fonctions L.999 64 0 1/3
Les pointes fortement séparées de la distribution en forme de U (ligne rouge en pointillés, histogramme le plus à gauche) créent des groupes de valeurs étroitement espacées. Cela se traduit par une très grande pente de la fonction L à . La fonction L diminue ensuite, devenant finalement négative pour refléter les écarts à des distances intermédiaires.0
L'échantillon de la distribution normale (ligne bleue continue, histogramme le plus à droite) est assez proche de la distribution uniforme. En conséquence, sa fonction L ne s'écarte pas rapidement de . Cependant, par des distances de 0,10 environ, il s'est élevé suffisamment au-dessus de l'enveloppe pour signaler une légère tendance à se regrouper. L'augmentation continue sur des distances intermédiaires indique que le regroupement est diffus et répandu (non limité à certains pics isolés).0 0.10
La grande pente initiale de l'échantillon à partir de la distribution du mélange (histogramme central) révèle un regroupement à de petites distances (moins de ). En tombant à des niveaux négatifs, il signale une séparation à des distances intermédiaires. La comparaison avec la fonction L de la distribution en U est révélatrice: les pentes à 0 , les montants par lesquels ces courbes montent au-dessus de 0 et les taux auxquels elles finissent par revenir à 0 fournissent toutes des informations sur la nature du regroupement présent dans les données. Chacune de ces caractéristiques pourrait être choisie comme une seule mesure de "régularité" pour convenir à une application particulière.0.15 0 0 0
Ces exemples montrent comment une fonction L peut être examinée pour évaluer les écarts des données par rapport à l'uniformité («uniformité») et comment on peut en extraire des informations quantitatives sur l'échelle et la nature des écarts.
(On peut en effet tracer la fonction L entière, s'étendant jusqu'à la distance normalisée complète de , pour évaluer les écarts à grande échelle par rapport à l'uniformité. Cependant, l'évaluation du comportement des données à de plus petites distances est généralement plus importante.)1
Logiciel
R
Le code pour générer cette figure suit. Il commence par définir des fonctions pour calculer K et L. Il crée une capacité à simuler à partir d'une distribution de mélange. Ensuite, il génère les données simulées et crée les tracés.la source
Ripley.L
.Je suppose que vous voulez mesurer à quel point la distribution de l'uniforme est proche.
Vous pouvez regarder la distance entre la fonction de distribution cumulative d'une distribution uniforme et la fonction de distribution cumulative empirique de l'échantillon.
Maintenant, comme mesure de la distance entre les distributions, prenons la somme des distances en chaque point, c'est-à-dire
Dans les cas plus compliqués, vous devez réviser la norme utilisée ci-dessus, mais l'idée principale reste la même. Si vous avez besoin d'une procédure de test, il peut être utile d'utiliser des normes pour lesquelles des tests sont développés (ceux que @TomMinka a souligné).
la source
Si je comprends bien votre question, la distribution "la plus uniforme" pour vous serait celle où la variable aléatoire prend une fois chaque valeur observée - uniforme dans un sens. S'il y a des "grappes" d'observations à la même valeur, ce serait inégal. En supposant que nous parlons d'observations discrètes, vous pourriez peut-être regarder à la fois la différence moyenne entre les points de masse de probabilité, la différence maximale ou peut-être combien d'observations ont une différence par rapport à la "moyenne" au-dessus d'un certain seuil.
S'il était vraiment uniforme dans les observations, tous les points PM devraient avoir la même valeur et la différence entre max et min est 0. Plus la différence moyenne est proche de 0, plus la masse des observations est "uniforme", plus la différence est faible la différence maximale et le moins de «pics» qui existent montrent également à quel point les observations empiriques sont «égales».
Mise à jour Bien sûr, vous pouvez utiliser un test du khi carré pour l'uniformité ou comparer la fonction de distribution empirique avec un uniforme, mais dans ces cas, vous serez pénalisé par de grandes "lacunes" dans les observations, même si les distributions des observations sont toujours "même".
la source
La mesure que vous recherchez est officiellement appelée divergence .
La version unidimensionnelle est la suivante:
Les séquences à faible écart sont souvent appelées séquences quasi aléatoires .
Un aperçu de base des séquences à faible écart peut être trouvé ici , et mon article de blog " L'efficacité déraisonnable des séquences quasi aléatoires " compare diverses méthodes lorsqu'elles sont appliquées à l'intégration numérique, la cartographie des points à la surface d'une sphère et la mosaïque quasi-périodique.
la source
Il semble que vous vous intéressiez aux différences par paire de valeurs observées au hasard dans une séquence particulière, comme dans le cas de la modélisation de la croissance ou de la tendance. Il existe plusieurs façons de procéder dans les analyses de séries chronologiques. Une approche très basique n'est qu'un simple modèle linéaire régressant les valeurs de séquence sur leurs valeurs d'index. Dans le premier cas, votre modèle linéaire vous donnerait un coefficient de régression singulier de 1 (prédictifR2= 1 ). Dans le dernier cas, ce serait un coefficient de 1,51 et unR2 de 0,78.
la source