Il existe de nombreuses façons de mesurer la similarité des deux distributions de probabilité. Parmi les méthodes qui sont populaires (dans différents cercles) figurent:
la distance de Kolmogorov: la distance supérieure entre les fonctions de distribution;
la distance de Kantorovich-Rubinstein: la différence maximale entre les attentes par rapport aux deux distributions de fonctions à constante de Lipschitz , qui se révèle être également la distance entre les fonctions de distribution;
la distance bornée-Lipschitz: comme la distance KR, mais les fonctions doivent également avoir une valeur absolue au plus égale à .
Ceux-ci présentent des avantages et des inconvénients différents. Seule la convergence au sens de 3 correspond précisément à la convergence de la distribution; la convergence au sens de 1 ou 2 est légèrement plus forte en général. (En particulier, si avec une probabilité de , converge vers dans la distribution, mais pas dans la distance de Kolmogorov. Toutefois, si la distribution limite est continue, cette pathologie ne se produit pas. )
Du point de vue de la probabilité élémentaire ou de la théorie de la mesure, 1. est très naturel car il compare les probabilités d'être dans un ensemble. En revanche, une perspective probabiliste plus sophistiquée tend à se concentrer davantage sur les attentes que sur les probabilités. En outre, du point de vue de l'analyse fonctionnelle, des distances telles que 2. ou 3. basées sur la dualité avec un espace fonctionnel sont très attrayantes, car il existe un grand nombre d'outils mathématiques pour travailler avec ce genre de choses.
Cependant, mon impression (corrigez-moi si je me trompe!) Est que, dans les statistiques, la distance de Kolmogorov est le moyen généralement préféré de mesurer la similarité des distributions. Je peux deviner une des raisons: si l’une des distributions est discrète avec un support fini - en particulier s’il s’agit de la distribution de données réelles - alors la distance de Kolmogorov par rapport à une distribution de modèle est facile à calculer. (La distance KR serait légèrement plus difficile à calculer, et la distance BL serait probablement impossible en pratique.)
Ma question (enfin) est donc la suivante: existe-t-il d'autres raisons, pratiques ou théoriques, de favoriser la distance de Kolmogorov (ou une autre distance) à des fins statistiques?
Réponses:
Marque,
La principale raison dont je suis conscient pour l'utilisation de KS est qu'elle découle naturellement des théorèmes de Glivenko-Cantelli dans les processus empiriques univariés. AWvan der Vaart "Statistiques asymptotiques", ch. 19. Une monographie plus avancée est "Convergence faible et processus empiriques" de Wellner et van der Vaart.
J'ajouterais deux notes rapides:
Je m'excuse si je ne peux pas être plus spécifique. J'espère que ça aide.
la source
Les problèmes de calcul sont l'argument le plus fort que j'ai entendu d'une manière ou d'une autre. Le principal avantage de la distance de Kolmogorov est qu’il est très facile de calculer analytiquement pour presque tous les CDF. La plupart des autres métriques de distance n'ont pas d'expression de forme fermée, sauf parfois dans le cas de Gauss.
La distance de Kolmogorov d'un échantillon a également une distribution d'échantillonnage connue étant donnée le CDF (je ne pense pas que la plupart des autres le soient), ce qui finit par être lié au processus de Wiener. C'est la base du test de Kolmogorov-Smirnoff pour comparer un échantillon à une distribution ou deux échantillons l'un à l'autre.
Sur une note d’analyse plus fonctionnelle, la norme standard est intéressante dans la mesure où (comme vous le dites) elle définit fondamentalement la convergence uniforme. Cela vous laisse avec une convergence de normes impliquant une convergence point par point. Ainsi, si vous êtes intelligent dans la définition de vos séquences de fonctions, vous pouvez travailler dans un environnement RKHS et utiliser tous les outils utiles qu’il fournit également.
la source
En résumé , ma réponse est la suivante: si vous avez une expression explicite ou si vous pouvez comprendre ce que votre distance mesure (à quelles "différences" il donne poids), alors vous pouvez dire en quoi elle est meilleure. Une autre façon complémentaire d'analyser et de comparer un tel test est la théorie minimax.
À la fin, certains tests seront utiles pour certaines alternatives et d'autres pour d'autres. Pour un ensemble d'alternatives donné, il est parfois possible d'indiquer si votre test a une propriété optimale dans le pire des cas: c'est la théorie du minimax.
Quelques détails
Par conséquent, vous pouvez parler des propriétés de deux tests différents en considérant l'ensemble d'alternatives pour lesquelles ils sont minimax (si une telle alternative existe), c'est-à-dire (en utilisant le mot de Donoho et Jin) en comparant leurs "valeurs optimales de détection" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Laissez-moi aller distance par distance:
La distance KS est obtenue en calculant la plus grande différence entre cdf et cdf empiriques. En tant que suppremum, il sera très sensible aux alternatives locales (changement local dans la cdf) mais pas à un changement global (au moins, utiliser la distance L2 entre la cdf serait moins local (suis-je ouvert la porte ouverte?)). Cependant, le plus important est d’utiliser la cdf. Cela implique une asymétrie: vous accordez plus d'importance aux changements dans la queue de votre distribution.
Wassertein metric (que voulez-vous dire par Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric est omniprésent et donc difficile à comparer.
Pour rappeler et prolonger le commentaire que j'ai fait qui complète la réponse:
Je sais que vous ne vouliez pas être exhaustif, mais vous pouvez ajouter une statistique Anderson chérie (voir http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Cela m'a fait penser à un article de Jager et Wellner (voir http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) qui étend / généralise les statistiques chères d'Anderson (et les inclut notamment) plus haute critique de Tukey). Des critiques plus sévères se sont déjà révélées être minimax pour un large éventail de solutions de remplacement et Jager et Wellner en font de même pour leur extension. Je ne pense pas que la propriété minimax ait été démontrée pour le test de Kolmogorov. Quoi qu'il en soit, comprendre pour quel type d'alternative votre test est minimax vous aide à savoir où se trouve sa force. Vous devriez donc lire le document ci-dessus.
la source
Je pense que vous devez considérer les avantages théoriques vs appliqués des différentes notions de distance. Les objets mathématiquement naturels ne se traduisent pas forcément bien en application. Kolmogorov-Smirnov est le plus connu pour son application et est solidement implanté dans les tests de qualité de l'ajustement. Je suppose que l' une des raisons pour cela est que lorsque la distribution sous - jacente est continue la distribution de la statistique est indépendante de . Une autre solution est qu'il peut être facilement inversé pour donner des bandes de confiance au CDF.FF F
Mais il est souvent utilisé de manière différente où est estimé par , et la statistique de test prend la forme L'intérêt est de voir dans quelle mesure ajuste les données et agit comme si , même si la théorie asymptotique ne s'applique pas nécessairement.F F^
la source
Je ne peux pas vous donner d'autres raisons d'utiliser le test de Kolmogorov-Smirnov. Mais, je peux vous donner une raison importante de ne pas l'utiliser. Cela ne correspond pas bien à la fin de la distribution. Anderson-Darling est à cet égard un test d’ajustement de distribution supérieur. En deuxième place, le test du Chi Square est plutôt bon. Les deux sont jugés très supérieurs au test KS à cet égard.
la source
Du point de vue de l'analyse fonctionnelle et de la théorie de la mesure, les distances de type ne définissent pas d'ensembles mesurables d'espaces de fonctions (espaces à dimensions infinies libérant un additif dénombrable dans les revêtements de billes métriques). Cela exclut fermement toute interprétation mesurable des distances des choix 2 et 3.Lp
Bien sûr, Kolomogorov, étant beaucoup plus brillant que nous, en particulier moi-même, avons anticipé cela. Le malin est que, bien que la distance dans le test KS soit de type , la norme uniforme elle-même n’est pas utilisée pour définir les ensembles mesurables. Les ensembles font plutôt partie d'une filtration stochastique sur les différences entre les distributions évaluées aux valeurs observées; ce qui équivaut au problème du temps d'arrêt.L0
En bref, la distance de norme uniforme du choix 1 est préférable car le test qu’il implique est équivalent au problème du temps d’arrêt, qui produit lui-même des probabilités pouvant être traitées par des calculs. Là où les choix 2 et 3 ne peuvent pas définir de sous-ensembles mesurables de fonctions.
la source