Comment tester que deux variables continues sont indépendantes?

48

Supposons que j'ai un échantillon à partir de la distribution conjointe de et . Comment tester l'hypothèse selon laquelle et sont indépendants ?(Xn,Yn),n=1..NY X YXYXY

Aucune hypothèse n'est faite sur les lois de distribution conjointe ou marginale de et (la normalité la moins commune, car dans ce cas, l'indépendance est identique à la corrélation étant ).Y 0XY0

Aucune hypothèse n'est faite sur la nature d'une relation possible entre et ; il peut être non linéaire, donc les variables sont non corrélées ( ) mais fortement dépendantes ( ).Y r = 0 I = HXYr=0I=H

Je peux voir deux approches:

  1. Répertorier les deux variables et utiliser le test exact ou le test G de Fisher .

    • Pro: utiliser des tests statistiques bien établis
    • Con: dépend de binning
  2. Estimez la dépendance de et : ( pour indépendant et et quand ils se déterminent complètement).Y I ( X ; Y )XYI(X;Y)H(X,Y)XY10XY1

    • Pro: produit un nombre avec une signification théorique claire
    • Con: dépend du calcul approximatif d'entropie (ie binning à nouveau)

Ces approches ont-elles un sens?

Quelles autres méthodes les gens utilisent?

sds
la source
3
Regardez dans la corrélation de distance .
Ray Koopman
@RayKoopman: merci, je lis maintenant Mesurer et tester la dépendance par corrélation de distances !
sds
2
la dépendance n'a pas de sens quand on parle de variables continues. Les variables continues ont une entropie infinie. Ici, vous ne pouvez pas substituer H à l'entropie différentielle, car l'entropie différentielle n'est pas comparable à l'information mutuelle. Bien que l' information mutuelle a un sens « absolu », l'entropie différentielle peut être positif, nul, voire négatif, selon les unités que vous utilisez pour mesurer les variables X et Y . I(X;Y)/H(X;Y)HXY
fonini
@fonini: bien sûr, je parlais de variables regroupées. Merci pour votre commentaire cependant.
sds

Réponses:

27

C’est un problème très difficile en général, bien que vos variables ne soient apparemment que 1d, ce qui aide. Bien sûr, la première étape (dans la mesure du possible) devrait consister à tracer les données et voir si quelque chose vous échappe; vous êtes en 2D alors cela devrait être facile.

Voici quelques approches qui fonctionnent dans les paramètres ou même plus généraux:Rn

Dougal
la source
Pouvez-vous mentionner brièvement comment ces approches se comparent à la corrélation de distance ? J'utilise DC pour passer au crible des ensembles de données volumineux (très volumineux pour moi). Je suis donc intéressé par vos commentaires. Merci!
pteetor
1
@pteetor C'est intéressant, je n'avais jamais rencontré de corrélation de distance auparavant. En termes de calcul, cela semble plus coûteux que l'approche d'estimation par entropie pour les échantillons de grande taille, car vous avez besoin des matrices de distance complètes (où, pour les estimateurs d'entropie, vous pouvez utiliser des indices pour obtenir uniquement les premiers kvoisins). Aucune idée de la façon dont il se compare en termes de puissance statistique / etc.
Dougal
4
Pour les lecteurs suivants: L'article de 2013 intitulé Equivalence des statistiques basées sur la distance et sur RKHS dans les tests d'hypothèses de Sejdinovic et al. montre que la corrélation de distance et les autres distances d'énergie sont des exemples particuliers de MMD, la mesure sous-jacente à HSIC, et discute de la relation en termes de puissance de test, etc.
Dougal
19

H0:H(x,y)=F(x)G(y)Hmischoeffd

Frank Harrell
la source
6

Que diriez-vous de ce papier:

http://arxiv.org/pdf/0803.4101.pdf

"Mesurer et tester la dépendance par corrélation de distances". Székely et Bakirov ont toujours des choses intéressantes.

Il existe un code matlab pour l'implémentation:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Si vous trouvez un autre test (simple à mettre en œuvre) pour l'indépendance, faites-le nous savoir.

JLp
la source
2
Bienvenue sur le site, @JLp. Nous espérons constituer un référentiel permanent d'informations statistiques de grande qualité sous forme de questions et réponses. En tant que tel, Linkrot est une chose qui nous préoccupe. Dans cet esprit, pourriez-vous nous donner un résumé du contenu de ce document / comment il répond aux questions, au cas où le lien disparaîtrait. Cela aidera également les futurs lecteurs de ce fil à décider s'ils souhaitent investir du temps pour lire le journal.
gung - Réintégrer Monica
@gung: c'est la même chose que de l' énergie
sds
5

Le lien entre la distance de covariance et les tests du noyau (basé sur le critère d'indépendance de Hilbert-Schmidt) est donné dans l'article:

Sejdinovic, D., Sriperumbudur, B., Gretton, A. et Fukumizu, K., Equivalence de statistiques basées sur la distance et sur la RKHS lors de tests d'hypothèses, Annals of Statistics, 41 (5), p.2263-2702, 2013

Il a été montré que la covariance des distances est un cas particulier de la statistique du noyau, pour une famille de noyaux particulière.

Si vous souhaitez utiliser des informations mutuelles, un test basé sur une estimation par intervalle de MI est:

Gretton, A. et Gyorfi, L., Tests d'indépendance non paramétriques cohérents, Journal of Machine Learning Research, 11, p.1391--1423, 2010.

Si vous souhaitez obtenir la meilleure puissance de test possible, utilisez plutôt les tests du noyau, plutôt que le binning et les informations mutuelles.

Cela dit, étant donné que vos variables sont univariées, les tests d’indépendance non paramétriques classiques tels que ceux de Hoeffding sont probablement satisfaisants.

Arthur Gretton
la source
4

Rarement (jamais?) Dans les statistiques pouvez-vous démontrer que votre statistique d'échantillon = une valeur en points. Vous pouvez tester des valeurs en points et les exclure ou non. Mais la nature des statistiques est qu’il s’agit d’examiner des données variables. Puisqu'il y a toujours de la variance, il n'y aura nécessairement aucun moyen de savoir que quelque chose n'est absolument pas lié, normal, gaussien, etc. Vous ne pouvez connaître qu'une plage de valeurs pour cela. Vous pourriez savoir si une valeur est exclue de la plage de valeurs plausibles. Par exemple, il est facile d’exclure aucune relation et de définir une plage de valeurs indiquant la taille de la relation.

Par conséquent, en essayant de ne démontrer aucune relation, la valeur en points de relationship = 0ne rencontrera essentiellement aucun succès. Si vous avez une gamme de mesures de relation qui sont acceptables comme approximativement 0. Il serait alors possible de concevoir un test.

En supposant que vous puissiez accepter cette limitation, il serait utile aux personnes qui essaient de vous aider de fournir un diagramme de dispersion avec une courbe basse. Puisque vous recherchez des solutions R, essayez:

scatter.smooth(x, y)

Sur la base des informations limitées que vous avez fournies jusqu'à présent, je pense qu'un modèle additif généralisé pourrait être la meilleure solution pour tester la non-indépendance. Si vous tracez cela avec les CI autour des valeurs prédites, vous pourrez peut-être faire des déclarations sur une conviction d'indépendance. Découvrez gamdans le paquet mgcv. L'aide est assez bonne et il y a une aide ici concernant l' IC .

John
la source
2

C'est peut-être intéressant ...

Garcia, JE; Gonzalez-Lopez, VA (2014) Tests d'indépendance pour les variables aléatoires continues basées sur la sous-séquence à la plus longue augmentation. Journal of Multivariate Analysis, v. 127 p. 126-146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

utilisateur78122
la source
2
Cet article gagnerait à plus de détails sur ce que contient l'article, en particulier parce qu'il se trouve derrière un paywall.
Erik
-1

Si vous utilisez R, cor.testfunction dans le package stats (par défaut dans R) peut le faire:

Test d'association / de corrélation entre les échantillons appariés. Testez l'association entre les échantillons appariés, en utilisant l'un des coefficients de corrélation des moments produits de Pearson, le tau de Kendall ou le rho de Spearman.

cor.test(x, y,method="spearman")
Shicheng Guo
la source
1
Cela manque les relations non linéaires qui sont explicitement le sujet de la question.
sds