Méthodes de mesure de la force des relations non linéaires arbitraires entre deux variables?

8

Quelles méthodes existe-t-il pour mesurer la force de relations arbitraires hautement non linéaires entre deux variables appariées? Par hautement non linéaire, j'entends des relations qui ne peuvent pas être modélisées de manière sensible ou fiable par régression vers un modèle connu. Je suis particulièrement intéressé par les séries chronologiques, mais j'imagine que tout ce qui fonctionne pour les données bi-variées fonctionnerait ici (si nous traitons les deux séries temporelles comme un ensemble de points de données de paire)

Deux que je connais sont la différence quadratique moyenne (c.-à-d. L' erreur quadratique moyenne , en traitant une série temporelle comme la valeur "attendue", et une comme la valeur observée), as et la covariance de distance . Quels autres sont là?

Clarification: je pose essentiellement des questions sur la dépendance entre les séries, où corrélation linéaire ou corrélation non linéaire simple (après log, exp, trig, autres transformations analytiques simples) ne signifie pas vraiment grand-chose.

rien101
la source
Si vous vous concentrez sur les prévisions, vous devez être conscient de la différence entre un bon ajustement du modèle et une capacité prédictive dérivée même d'un simple modèle linéaire multivarié. J'ai posté une question sur un sujet connexe ici: stats.stackexchange.com/questions/25381/… .
Robert Kubrick
Les modèles non linéaires sont un vaste domaine. Je soupçonne que vous pourriez également être intéressé par la reconnaissance des modèles, qui est un proche cousin de la modélisation non linéaire lorsqu'elle est appliquée à la prévision. Pouvez-vous préciser la question, peut-être avec un exemple de votre problème?
Robert Kubrick
1
Apparemment, il n'y a pas de réponse simple :) amazon.com/Nonlinear-Series-Analysis-Holger-Kantz/dp/0521529026
Robert Kubrick
1
Ce n'est pas tout à fait clair d'être ce que vous essayez de mesurer, mais je vais essayer de vous donner des informations qui pourraient vous aider. Il existe des mesures de corrélation comme l'Alpha de Cronback qui peuvent être utilisées pour évaluer la cohérence / relation interne entre un ensemble de variables. Vous pouvez également utiliser des éléments tels que les modèles additifs généraux (GAM) pour tester si l'estimation fonctionnelle est constante. Cela n'impliquerait aucune relation entre vos variables. Voir la réponse ici pour une discussion à ce sujet: stats.stackexchange.com/questions/35893/…
StatsStudent
1
@StatsStudent merci pour le lien, c'est vraiment utile. Je pense que c'est la meilleure réponse jusqu'à présent, si vous la déplacez vers une réponse et qu'aucune meilleure n'apparaît avant la date limite, je vous attribuerai les points.
Allen Wang

Réponses:

2

La régression linéaire ancienne a une belle interprétation non paramétrique comme la tendance linéaire moyenne à travers toutes les paires d'observations; voir Berman 1988, "Un théorème de Jacobi et sa généralisation". Ainsi, les données n'ont pas besoin d'être linéaires pour pouvoir les utiliser; toute tendance (largement) monotone pourrait être résumée de cette façon.

Vous pouvez également utiliser la corrélation de rang Spearman ... et probablement bien plus encore.

client
la source
Merci, mais je suis conscient de cela, et ce n'est précisément pas ce que je demandais (car une ligne droite est plus ou moins le modèle le plus simple possible, cela est impliqué dans ma question). J'ai clarifié la question.
naught101
2

La "quantité de relation" entre deux variables discrètes , est formellement mesurée par des informations mutuelles : . Alors que la covariance / corrélation est en quelque sorte la quantité de relation linéaire, l'information mutuelle est en quelque sorte la quantité de (tout type de) relation. Je colle la page de Wikipédia sous forme d'image:XYI(X,Y)

entrez la description de l'image ici

Pour les variables continues, les concepts théoriques de l'information sont souvent définis également, mais moins gérables, peut-être moins significatifs. Je ne veux pas déranger pour le moment. Restons-en aux variables discrètes. Quoi qu'il en soit, il est logique d'approximer les variables continues par des variables discrètes (à l'aide de tranches), en particulier dans les approches théoriques de l'information.

Le problème avec les concepts théoriques de l'information est souvent leur impraticabilité. Être capable d'approximer les informations mutuelles entre et revient à trouver une relation non linéaire arbitraire entre eux: vous avez besoin d'une puissance statistique (quantité de données) le plus souvent bien au-delà de ce qui est raisonnable: pour toute valeur possible pour , vous avez besoin de plusieurs (disons 1000) échantillons pour calculer une estimation de chaque . Cela n'est pas possible dans la plupart des problèmes d'apprentissage automatique ou d'analyse statistique. C'est un peu logique: si vous autorisez un modèle à pouvoir exprimer «n'importe quelle possibilité», il ne peut être formé que par une quantité de données couvrant plusieurs possibilités à plusieurs reprises.XYxP(Y=y|X=x)

Mais peut-être qu'une telle approche est possible, pour les variables de faible dimension, si vous imposez une faible précision: décomposez les domaines de et en un certain nombre de tranches suffisamment petites pour que cela soit correct pour vos données. Quoi qu'il en soit, je pense que cela nécessite des recherches.XY

Benoit Sanchez
la source
1

Finalement, la forme la plus générale d'une fonction injective est

f(x)=y

et vous pouvez utiliser une version discrétisée de cette fonction comme modèle pour vos données.

Le problème se réduit alors à déterminer le attendu pour des régions distinctes .ya<x<b

La méthode n'est pas puissante en raison de la grande quantité de degrés de liberté dans le modèle. Cependant, cela est également inhérent au problème qui demande un degré élevé de liberté (et de généralité) dans le type de fonctions qui peuvent décrire le modèle pour les données.

Pour des cas plus spécifiques, des améliorations peuvent être apportées.

Sextus Empiricus
la source
Mon modèle proposé était extrêmement général. Vous pouvez également utiliser des splines, des fonctions linéaires par morceaux ou n'importe quel type de fonctions d'ajustement générales.
Sextus Empiricus
1

Doit être une méthode rapide à calculer, similaire à la corrélation, mais capable de détecter des relations quadratiques par exemple.

La corrélation Spearman, qui a été mentionnée dans une autre réponse, correspond au projet de loi. Il est calculé en convertissant simplement les données en rangs, puis en trouvant la corrélation de Pearson pour les rangs. Il peut détecter toute association monotone.

Il y a aussi la corrélation de Kendall. La corrélation de Kendall a une bonne interprétation car (une version redimensionnée de) la probabilité que le classement des cas sur une variable soit d'accord avec leur classement sur une autre variable. La corrélation de Spearman, en revanche, est un peu opaque - qui pense aux données en termes de relations linéaires entre les rangs? La corrélation de Kendall n'est pas "rapide à calculer" en termes de complexité de calcul (c'est alors que Spearman est ), mais elle ne nécessite aucun jugement humain pour calculer et elle est déjà implémentée dans de nombreuses statistiques logiciel, et avec une machine moderne, la complexité asymptomatique est peu probable, sauf avec les très grands ensembles de données.O(nlogn)O(n)

Kodiologue
la source
Si un tri par comparaison est utilisé pour calculer les rangs, alors Spearman sera également . nlog(n)
GeoMatt22
@ GeoMatt22 Ah, il semble que la réponse cs.stackexchange à laquelle j'ai lié n'a pas pris en compte l'étape de classement. La corrélation de Spearman n'est donc probablement pas plus rapide que la corrélation de Kendall, après tout.
Kodiologist
1

Ce n'est pas tout à fait clair d'être ce que vous essayez de mesurer, mais je vais essayer de vous donner des informations qui pourraient vous aider. Il existe des mesures de corrélation comme l'Alpha de Cronback qui peuvent être utilisées pour évaluer la cohérence / relation interne entre un ensemble de variables. Vous pouvez également utiliser des éléments tels que les modèles additifs généraux (GAM) pour tester si l'estimation fonctionnelle est constante. Cela n'impliquerait aucune relation entre vos variables. Voir la réponse ici pour une discussion à ce sujet: Comment puis-je tester une association non linéaire?

StatsStudent
la source
1

Vous pouvez essayer le coefficient d'information maximal . Il surpasse les méthodes sélectionnées dans l'article et fonctionne bien pour détecter les relations non linéaires entre deux variables aléatoires.

Des marques
la source
0

Je ne peux pas commenter donc je dois poster la réponse. Jetez un œil à Dynamic Time Warping, un algorithme simple qui peut en quelque sorte détecter / comparer des modèles entre deux séries temporelles, qui peuvent avoir une granularité encore différente. https://en.wikipedia.org/wiki/Dynamic_time_warping

reicja
la source
Je ne recherche pas exactement que des séries chronologiques, cela peut être entre deux ensembles de variables.
Allen Wang
2
Je vois, donc DTW n'est pas exactement ce dont vous avez besoin. Une approche d'information mutuelle ne pourrait-elle pas être appliquée?
reicja