Quand la covariance de distance est-elle moins appropriée que la covariance linéaire?

21

Je viens d'être initié (vaguement) à la covariance / corrélation brownienne / distance . Il semble particulièrement utile dans de nombreuses situations non linéaires, lors du test de dépendance. Mais il ne semble pas être utilisé très souvent, même si la covariance / corrélation est souvent utilisée pour les données non linéaires / chaotiques.

Cela me fait penser qu'il pourrait y avoir des inconvénients à la covariance de distance. Alors, quels sont-ils et pourquoi tout le monde n'utilise-t-il pas toujours la covariance de distance?

rien101
la source
6
Pour référence, j'ai créé une version de corrélation de distance du graphique de corrélation sur wikipedia
naught101
J'ai lu que vous utilisiez dcov pour comparer des séries chronologiques non linéaires et les combiner avec le poids .. Je me demandais si ce que vous avez fait était d'utiliser une covariance de distance pondérée ... ce qui signifie que vous avez donné des poids différents à vos données en utilisant un vecteur de poids pour calculer la corrélation de distance? J'essaie de le faire, mais je ne suis pas sûr que l'introduction d'un vecteur de poids dans les formules de corrélation de distance soit la bonne solution.
user3757561
Non, désolé @ user3757561, j'essayais simplement la corrélation de distance en remplacement de la corrélation, puis je créais des poids basés sur cela. Mais je n'ai pas fini par l'utiliser de toute façon ...
naught101

Réponses:

18

J'ai essayé de recueillir quelques remarques sur la covariance de distance en fonction de mes impressions en lisant les références répertoriées ci-dessous. Cependant, je ne me considère pas comme un expert sur ce sujet. Les commentaires, corrections, suggestions, etc. sont les bienvenus.

Les remarques sont (fortement) biaisées vers des inconvénients potentiels, comme demandé dans la question initiale .

Selon moi, les inconvénients potentiels sont les suivants:

  1. La méthodologie est nouvelle . Je suppose que c'est le facteur le plus important en ce qui concerne le manque de popularité à l'heure actuelle. Les articles décrivant la covariance des distances commencent au milieu des années 2000 et progressent jusqu'à nos jours. L'article cité ci-dessus est celui qui a reçu le plus d'attention (battage médiatique?) Et il a moins de trois ans. En revanche, la théorie et les résultats sur la corrélation et les mesures de type corrélation ont déjà plus d'un siècle de travail derrière eux.
  2. Les concepts de base sont plus difficiles . La corrélation produit-moment de Pearson, au niveau opérationnel, peut être expliquée assez facilement à l'étudiant de première année sans fond de calcul. Un simple point de vue «algorithmique» peut être présenté et l'intuition géométrique est facile à décrire. En revanche, dans le cas de la covariance de distance, même la notion de sommes de produits de distances euclidiennes par paires est un peu plus difficile et la notion de covariance par rapport à un processus stochastique va bien au-delà de ce qui pourrait raisonnablement être expliqué à un tel public. .
  3. Il est plus exigeant en termes de calcul . L'algorithme de base pour calculer la statistique de test est dans la taille de l'échantillon par opposition à O ( n ) pour les métriques de corrélation standard. Pour les petits échantillons, ce n'est pas un gros problème, mais pour les plus grands, cela devient plus important.O(n2)O(n)
  4. La statistique de test n'est pas libre de distribution, même asymptotiquement . On pourrait espérer que pour une statistique de test cohérente par rapport à toutes les alternatives, que la distribution - au moins asymptotiquement - puisse être indépendante des distributions sous-jacentes de et Y sous l'hypothèse nulle. Ce n'est pas le cas pour la covariance de distance car la distribution sous le zéro dépend de la distribution sous-jacente de X et Y même si la taille de l'échantillon tend vers l'infini. Il est vrai que les distributions sont uniformément limitées par unXOuiXOuiχ12
  5. |ρ|
  6. Propriétés de puissance inconnues . Être cohérent contre toutes les alternatives garantit essentiellement que la covariance de distance doit avoir une puissance très faible contre certaines alternatives. Dans de nombreux cas, on est prêt à renoncer à la généralité afin d'acquérir un pouvoir supplémentaire contre des alternatives particulières d'intérêt. Les articles originaux montrent quelques exemples dans lesquels ils revendiquent une puissance élevée par rapport aux métriques de corrélation standard, mais je pense que, pour revenir à (1.) ci-dessus, son comportement contre les alternatives n'est pas encore bien compris.

Je le répète, cette réponse est probablement assez négative. Mais ce n'est pas l'intention. Il existe quelques idées très belles et intéressantes liées à la covariance à distance et la relative nouveauté de celle-ci ouvre également des voies de recherche pour mieux la comprendre.

Références :

  1. GJ Szekely et ML Rizzo (2009), covariance de distance brownienne , Ann. Appl. Statist. , vol. 3, non. 4, 1236–1265.
  2. GJ Szekely, ML Rizzo et NK Bakirov (2007), Mesurer et tester l'indépendance par corrélation des distances , Ann. Statist. , vol. 35, 2769–2794.
  3. R. Lyons (2012), Covariance de distance dans les espaces métriques , Ann. Probab. (apparaître).
cardinal
la source
Excellente réponse, merci. Une partie est un peu au-dessus de ma tête, mais je pense que je pourrai y remédier moi-même :)
naught101
1
Voir aussi Résumé et discussion de: «Brownian Distance Covariance» Statistics Journal Club, 36-825 Benjamin Cowley et Giuseppe Vinci 27 octobre 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Felipe G. Nievinski
2
O(nJournaln)
3

Je pourrais bien manquer quelque chose, mais le simple fait d'avoir une quantification de la dépendance non linéaire entre deux variables ne semble pas avoir beaucoup d'intérêt. Cela ne vous dira pas la forme de la relation. Cela ne vous donnera aucun moyen de prédire une variable de l'autre. Par analogie, lors de l'analyse exploratoire des données, on utilise parfois une courbe de loess (nuage de points localement pondéré plus lisse) comme première étape pour voir si les données sont mieux modélisées avec une ligne droite, un quadratique, un cube, etc. Mais le loess dans et en soi n'est pas un outil prédictif très utile. Ce n'est qu'une première approximation sur la façon de trouver une équation réalisable pour décrire une forme bivariée. Contrairement au lœss (ou au résultat de la covariance de distance), cette équation peut constituer la base d'un modèle de confirmation.

rolando2
la source
Pour mes besoins, il a un gain. Je n'utilise pas dcov () pour prédire quoi que ce soit, plutôt, comparer plusieurs séries temporelles non linéaires dans un ensemble et les combiner avec des poids basés sur leur dépendance. Dans cette situation, dcov () présente des avantages potentiellement importants.
naught101
@ naught101 Pouvez-vous ajouter quelques informations supplémentaires lorsque vous dites "combiner"? Cela me semble intéressant en termes de pondération basée sur la dépendance non linéaire. Voulez-vous dire- classer les séries chronologiques en groupes? De plus, sur quoi les poids élevés et faibles mettent-ils l'accent dans ce scénario?
corbillard
2
@PraneethVepakomma: consultez ma réponse sur stats.stackexchange.com/questions/562/…
naught101
1
De plus, si vous connaissez la forme générale de dépendance (par exemple, l'équation polynomiale), vous pouvez quantifier la force de la dépendance en utilisant le coefficient de détermination, voir, par exemple, Calcul R2 ajusté pour les régressions polynomiales
Felipe G.Nievinski