À partir de deux histogrammes, comment pouvons-nous évaluer s'ils sont similaires ou non?
Est-il suffisant de simplement regarder les deux histogrammes? La simple correspondance un à un pose le problème suivant: si un histogramme est légèrement différent et légèrement décalé, nous n'obtiendrons pas le résultat souhaité.
Aucune suggestion?
histogram
image-processing
Mew 3.4
la source
la source
Réponses:
Un article récent qui mérite d'être lu est:
Cao, Y. Petzold, L. Limitations de précision et mesure des erreurs dans la simulation stochastique de systèmes à réaction chimique, 2006.
Bien que cet article se concentre sur la comparaison des algorithmes de simulation stochastiques, l’idée principale est essentiellement de savoir comment comparer deux histogrammes.
Vous pouvez accéder au pdf à partir de la page Web de l'auteur.
la source
Il existe de nombreuses mesures de distance entre deux histogrammes. Vous pouvez lire une bonne catégorisation de ces mesures dans:
Les fonctions de distance les plus populaires sont listées ici pour plus de commodité:
Une implémentation Matlab de certaines de ces distances est disponible dans mon référentiel GitHub: https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance Vous pouvez également rechercher des gars comme Yossi Rubner, Ofir Pelé, Marco Cuturi et Haibin Ling pour plus de distances de pointe.
Mise à jour: Une explication alternative pour les distances apparaît ici et là dans la littérature, je les énumère donc par souci d'exhaustivité.
la source
hist1 < hist2
La réponse standard à cette question est le test du chi carré . Le test KS concerne les données non liées, pas les données combinées. (Si vous disposez de données non liées, utilisez un test de style KS, mais si vous ne disposez que de l'histogramme, le test KS n'est pas approprié.)
la source
Vous recherchez le test de Kolmogorov-Smirnov . N'oubliez pas de diviser les hauteurs de barre par la somme de toutes les observations de chaque histogramme.
Notez que le test KS indique également une différence si, par exemple, les moyennes des distributions sont décalées les unes par rapport aux autres. Si la translation de l'histogramme le long de l'axe des x n'est pas significative dans votre application, vous souhaiterez peut-être soustraire d'abord la moyenne de chaque histogramme.
la source
Comme le fait remarquer David dans sa réponse, le test du khi-carré est nécessaire pour les données regroupées, car le test KS suppose des distributions continues. En ce qui concerne la raison pour laquelle le test KS est inapproprié (commentaire de naught101), la question de la question dans la littérature de statistiques appliquées mérite d’être soulevée ici.
Un échange amusant a commencé avec l'affirmation ( García-Berthou et Alcaraz, 2004 ) qu'un tiers des articles de Nature contenaient des erreurs statistiques. Cependant, un article ultérieur ( Jeng, 2006 , " Erreur dans les tests statistiques d'erreur dans les tests statistiques " - peut-être mon titre de papier préféré de tous les temps) a montré que Garcia-Berthou et Alcaraz (2005) ont utilisé des tests KS sur des données discrètes, ce qui conduit à leur rapporter des valeurs p inexactes dans leur méta-étude. Le document Jeng (2006) fournit une discussion intéressante sur la question, montrant même que l’on peut modifier le test KS pour qu’il fonctionne avec des données discrètes. Dans ce cas particulier, la distinction se résume à la différence entre une distribution uniforme du dernier chiffre sur [0,9], P(x)=1
la source
Vous pouvez calculer la corrélation croisée (convolution) entre les deux histogrammes. Cela prendra en compte de légères traductions.
la source