Résumé : essayer de trouver la meilleure méthode résume la similitude entre deux ensembles de données alignés de données en utilisant une seule valeur.
Détails :
Ma question est mieux expliquée avec un diagramme. Les graphiques ci-dessous montrent deux ensembles de données différents, chacun avec des valeurs étiquetées nf
et nr
. Les points le long de l'axe x représentent où les mesures ont été prises et les valeurs sur l'axe y sont la valeur mesurée résultante.
Pour chaque graphique, je veux un nombre unique pour résumer la similitude nf
et les nr
valeurs à chaque point de mesure. Dans cet exemple, il est visuellement évident que les résultats des premiers graphiques sont moins similaires à ceux du deuxième graphique. Mais j'ai beaucoup d'autres données où la différence est moins évidente, donc être capable de classer cela quantitativement serait utile.
Je pensais qu'il pourrait y avoir une technique standard qui est généralement utilisée. La recherche de similitudes statistiques a donné beaucoup de résultats différents, mais je ne sais pas ce qu'il y a de mieux à choisir ou si les choses que j'ai préparées s'appliquent à mon problème. J'ai donc pensé que cette question méritait d'être posée ici au cas où il y aurait une réponse simple.
la source
Réponses:
L'espace entre 2 courbes peut vous donner la différence. La somme (nr-nf) (somme de toutes les différences) sera donc une approximation de l'aire entre 2 courbes. Si vous voulez le rendre relatif, sum (nr-nf) / sum (nf) peut être utilisé. Ceux-ci vous donneront une valeur unique indiquant la similitude entre 2 courbes pour chaque graphique.
Edit: La méthode de somme des différences ci-dessus sera utile même s'il s'agit de points ou d'observations séparés et non de lignes ou courbes connectées, mais dans ce cas, la moyenne des différences peut également être un indicateur et peut être meilleure car elle prendrait en compte la nombre d'observations.
la source
Vous devez définir davantage ce que vous entendez par «similitude». La magnitude est-elle importante? Ou seulement la forme?
Si seule la forme compte, vous voudrez normaliser les deux séries temporelles par leur valeur maximale (elles sont donc toutes les deux de 0 à 1).
Si vous recherchez une corrélation linéaire, une simple corrélation de Pearson fonctionnera bien - qui mesure essentiellement la covariance.
Il existe d'autres techniques, par exemple, qui pourraient adapter une ligne ou un polynôme à la série temporelle (essentiellement le lisser), puis comparer les polynômes lisses.
Si vous recherchez une similitude périodique (c.-à-d. Que la série chronologique a une certaine composante sinusoïdale ou saisonnalité), envisagez d'utiliser une décomposition de série chronologique dans la tendance et les composantes saisonnières en premier. Ou en utilisant quelque chose comme FFT pour comparer les données dans le domaine fréquentiel.
C'est à peu près tout ce que je sais sans plus de définition de ce que "similaire" devrait être. J'espère que cela aide.
la source
Vous pouvez utiliser (nr-nf) pour chaque point de mesure, plus le nombre (valeur absolue) est petit, plus la valeur est similaire. Pas exactement l'approche la plus scientifique, veuillez me pardonner, je n'ai pas vraiment de formation formelle dans ce genre de choses. Si vous cherchez juste une représentation numérique du visuel, cela devrait le faire.
la source