Quelles méthodes existe-t-il pour mesurer la force de relations arbitraires hautement non linéaires entre deux variables appariées? Par hautement non linéaire, j'entends des relations qui ne peuvent pas être modélisées de manière sensible ou fiable par régression vers un modèle connu. Je suis particulièrement intéressé par les séries chronologiques, mais j'imagine que tout ce qui fonctionne pour les données bi-variées fonctionnerait ici (si nous traitons les deux séries temporelles comme un ensemble de points de données de paire)
Deux que je connais sont la différence quadratique moyenne (c.-à-d. L' erreur quadratique moyenne , en traitant une série temporelle comme la valeur "attendue", et une comme la valeur observée), as et la covariance de distance . Quels autres sont là?
Clarification: je pose essentiellement des questions sur la dépendance entre les séries, où corrélation linéaire ou corrélation non linéaire simple (après log, exp, trig, autres transformations analytiques simples) ne signifie pas vraiment grand-chose.
la source
Réponses:
La régression linéaire ancienne a une belle interprétation non paramétrique comme la tendance linéaire moyenne à travers toutes les paires d'observations; voir Berman 1988, "Un théorème de Jacobi et sa généralisation". Ainsi, les données n'ont pas besoin d'être linéaires pour pouvoir les utiliser; toute tendance (largement) monotone pourrait être résumée de cette façon.
Vous pouvez également utiliser la corrélation de rang Spearman ... et probablement bien plus encore.
la source
La "quantité de relation" entre deux variables discrètes , est formellement mesurée par des informations mutuelles : . Alors que la covariance / corrélation est en quelque sorte la quantité de relation linéaire, l'information mutuelle est en quelque sorte la quantité de (tout type de) relation. Je colle la page de Wikipédia sous forme d'image:X Y I(X,Y)
Pour les variables continues, les concepts théoriques de l'information sont souvent définis également, mais moins gérables, peut-être moins significatifs. Je ne veux pas déranger pour le moment. Restons-en aux variables discrètes. Quoi qu'il en soit, il est logique d'approximer les variables continues par des variables discrètes (à l'aide de tranches), en particulier dans les approches théoriques de l'information.
Le problème avec les concepts théoriques de l'information est souvent leur impraticabilité. Être capable d'approximer les informations mutuelles entre et revient à trouver une relation non linéaire arbitraire entre eux: vous avez besoin d'une puissance statistique (quantité de données) le plus souvent bien au-delà de ce qui est raisonnable: pour toute valeur possible pour , vous avez besoin de plusieurs (disons 1000) échantillons pour calculer une estimation de chaque . Cela n'est pas possible dans la plupart des problèmes d'apprentissage automatique ou d'analyse statistique. C'est un peu logique: si vous autorisez un modèle à pouvoir exprimer «n'importe quelle possibilité», il ne peut être formé que par une quantité de données couvrant plusieurs possibilités à plusieurs reprises.X Y x P(Y=y|X=x)
Mais peut-être qu'une telle approche est possible, pour les variables de faible dimension, si vous imposez une faible précision: décomposez les domaines de et en un certain nombre de tranches suffisamment petites pour que cela soit correct pour vos données. Quoi qu'il en soit, je pense que cela nécessite des recherches.X Y
la source
Finalement, la forme la plus générale d'une fonction injective est
et vous pouvez utiliser une version discrétisée de cette fonction comme modèle pour vos données.
Le problème se réduit alors à déterminer le attendu pour des régions distinctes .y a<x<b
La méthode n'est pas puissante en raison de la grande quantité de degrés de liberté dans le modèle. Cependant, cela est également inhérent au problème qui demande un degré élevé de liberté (et de généralité) dans le type de fonctions qui peuvent décrire le modèle pour les données.
Pour des cas plus spécifiques, des améliorations peuvent être apportées.
la source
La corrélation Spearman, qui a été mentionnée dans une autre réponse, correspond au projet de loi. Il est calculé en convertissant simplement les données en rangs, puis en trouvant la corrélation de Pearson pour les rangs. Il peut détecter toute association monotone.
Il y a aussi la corrélation de Kendall. La corrélation de Kendall a une bonne interprétation car (une version redimensionnée de) la probabilité que le classement des cas sur une variable soit d'accord avec leur classement sur une autre variable. La corrélation de Spearman, en revanche, est un peu opaque - qui pense aux données en termes de relations linéaires entre les rangs? La corrélation de Kendall n'est pas "rapide à calculer" en termes de complexité de calcul (c'est alors que Spearman est ), mais elle ne nécessite aucun jugement humain pour calculer et elle est déjà implémentée dans de nombreuses statistiques logiciel, et avec une machine moderne, la complexité asymptomatique est peu probable, sauf avec les très grands ensembles de données.O(nlogn) O(n)
la source
Ce n'est pas tout à fait clair d'être ce que vous essayez de mesurer, mais je vais essayer de vous donner des informations qui pourraient vous aider. Il existe des mesures de corrélation comme l'Alpha de Cronback qui peuvent être utilisées pour évaluer la cohérence / relation interne entre un ensemble de variables. Vous pouvez également utiliser des éléments tels que les modèles additifs généraux (GAM) pour tester si l'estimation fonctionnelle est constante. Cela n'impliquerait aucune relation entre vos variables. Voir la réponse ici pour une discussion à ce sujet: Comment puis-je tester une association non linéaire?
la source
Vous pouvez essayer le coefficient d'information maximal . Il surpasse les méthodes sélectionnées dans l'article et fonctionne bien pour détecter les relations non linéaires entre deux variables aléatoires.
la source
Je ne peux pas commenter donc je dois poster la réponse. Jetez un œil à Dynamic Time Warping, un algorithme simple qui peut en quelque sorte détecter / comparer des modèles entre deux séries temporelles, qui peuvent avoir une granularité encore différente. https://en.wikipedia.org/wiki/Dynamic_time_warping
la source