Supposons que j'ai un échantillon à partir de la distribution conjointe de et . Comment tester l'hypothèse selon laquelle et sont indépendants ?Y X Y
Aucune hypothèse n'est faite sur les lois de distribution conjointe ou marginale de et (la normalité la moins commune, car dans ce cas, l'indépendance est identique à la corrélation étant ).Y 0
Aucune hypothèse n'est faite sur la nature d'une relation possible entre et ; il peut être non linéaire, donc les variables sont non corrélées ( ) mais fortement dépendantes ( ).Y r = 0 I = H
Je peux voir deux approches:
Répertorier les deux variables et utiliser le test exact ou le test G de Fisher .
- Pro: utiliser des tests statistiques bien établis
- Con: dépend de binning
Estimez la dépendance de et : ( pour indépendant et et quand ils se déterminent complètement).Y I ( X ; Y )XY1
- Pro: produit un nombre avec une signification théorique claire
- Con: dépend du calcul approximatif d'entropie (ie binning à nouveau)
Ces approches ont-elles un sens?
Quelles autres méthodes les gens utilisent?
Réponses:
C’est un problème très difficile en général, bien que vos variables ne soient apparemment que 1d, ce qui aide. Bien sûr, la première étape (dans la mesure du possible) devrait consister à tracer les données et voir si quelque chose vous échappe; vous êtes en 2D alors cela devrait être facile.
Voici quelques approches qui fonctionnent dans les paramètres ou même plus généraux:Rn
Comme vous l'avez mentionné, estimez les informations mutuelles via des entropies. Cela peut être votre meilleure option. les estimateurs basés sur le voisin le plus proche acceptent les dimensions faibles et même les histogrammes ne sont pas terribles en 2D. Si vous vous inquiétez des erreurs d’estimation, cet estimateur est simple et vous donne des limites d’échantillon fini (la plupart des autres ne font que démontrer des propriétés asymptotiques):
Alternativement, il existe des estimateurs directs similaires pour l'information mutuelle, par exemple:
Le critère d'indépendance de Hilbert-Schmidt: une approche basée sur le noyau (au sens de RKHS et non de KDE).
L'approche Schweizer-Wolff: basée sur les transformations de copules, elle est donc invariante aux transformations croissantes monotones. Je ne connais pas très bien celui-ci, mais j’estime que c’est plus simple en calcul, mais aussi peut-être moins puissant.
la source
k
voisins). Aucune idée de la façon dont il se compare en termes de puissance statistique / etc.Hmisc
hoeffd
la source
Que diriez-vous de ce papier:
http://arxiv.org/pdf/0803.4101.pdf
"Mesurer et tester la dépendance par corrélation de distances". Székely et Bakirov ont toujours des choses intéressantes.
Il existe un code matlab pour l'implémentation:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Si vous trouvez un autre test (simple à mettre en œuvre) pour l'indépendance, faites-le nous savoir.
la source
Le lien entre la distance de covariance et les tests du noyau (basé sur le critère d'indépendance de Hilbert-Schmidt) est donné dans l'article:
Sejdinovic, D., Sriperumbudur, B., Gretton, A. et Fukumizu, K., Equivalence de statistiques basées sur la distance et sur la RKHS lors de tests d'hypothèses, Annals of Statistics, 41 (5), p.2263-2702, 2013
Il a été montré que la covariance des distances est un cas particulier de la statistique du noyau, pour une famille de noyaux particulière.
Si vous souhaitez utiliser des informations mutuelles, un test basé sur une estimation par intervalle de MI est:
Gretton, A. et Gyorfi, L., Tests d'indépendance non paramétriques cohérents, Journal of Machine Learning Research, 11, p.1391--1423, 2010.
Si vous souhaitez obtenir la meilleure puissance de test possible, utilisez plutôt les tests du noyau, plutôt que le binning et les informations mutuelles.
Cela dit, étant donné que vos variables sont univariées, les tests d’indépendance non paramétriques classiques tels que ceux de Hoeffding sont probablement satisfaisants.
la source
Rarement (jamais?) Dans les statistiques pouvez-vous démontrer que votre statistique d'échantillon = une valeur en points. Vous pouvez tester des valeurs en points et les exclure ou non. Mais la nature des statistiques est qu’il s’agit d’examiner des données variables. Puisqu'il y a toujours de la variance, il n'y aura nécessairement aucun moyen de savoir que quelque chose n'est absolument pas lié, normal, gaussien, etc. Vous ne pouvez connaître qu'une plage de valeurs pour cela. Vous pourriez savoir si une valeur est exclue de la plage de valeurs plausibles. Par exemple, il est facile d’exclure aucune relation et de définir une plage de valeurs indiquant la taille de la relation.
Par conséquent, en essayant de ne démontrer aucune relation, la valeur en points de
relationship = 0
ne rencontrera essentiellement aucun succès. Si vous avez une gamme de mesures de relation qui sont acceptables comme approximativement 0. Il serait alors possible de concevoir un test.En supposant que vous puissiez accepter cette limitation, il serait utile aux personnes qui essaient de vous aider de fournir un diagramme de dispersion avec une courbe basse. Puisque vous recherchez des solutions R, essayez:
Sur la base des informations limitées que vous avez fournies jusqu'à présent, je pense qu'un modèle additif généralisé pourrait être la meilleure solution pour tester la non-indépendance. Si vous tracez cela avec les CI autour des valeurs prédites, vous pourrez peut-être faire des déclarations sur une conviction d'indépendance. Découvrez
gam
dans le paquet mgcv. L'aide est assez bonne et il y a une aide ici concernant l' IC .la source
C'est peut-être intéressant ...
Garcia, JE; Gonzalez-Lopez, VA (2014) Tests d'indépendance pour les variables aléatoires continues basées sur la sous-séquence à la plus longue augmentation. Journal of Multivariate Analysis, v. 127 p. 126-146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
la source
Si vous utilisez R,
cor.test
function dans le package stats (par défaut dans R) peut le faire:Test d'association / de corrélation entre les échantillons appariés. Testez l'association entre les échantillons appariés, en utilisant l'un des coefficients de corrélation des moments produits de Pearson, le tau de Kendall ou le rho de Spearman.
la source