Est-il utile de calculer la corrélation de Pearson ou de Spearman entre deux vecteurs booléens?

42

Il existe deux vecteurs booléens, qui contiennent uniquement 0 et 1. Si je calcule la corrélation de Pearson ou de Spearman, sont-elles significatives ou raisonnables?

Zhilong Jia
la source
2
Si les deux variables sont dichotomiques, Pearson = Spearman = Tau de Kendall. Oui, cela peut avoir un sens. Avec des données véritablement binaires (booléennes), il est également important de calculer "Pearson" sur des données sans les centrer, ce serait un cosinus.
ttnphns
1
... et = Phi (Khi-deux normalisé) qui nous amène de la balance au tableau de contingence.
ttnphns

Réponses:

34

Les corrélations de Pearson et de Spearman sont définies aussi longtemps que vous avez et s pour les deux variables binaires, disons et . Il est facile de se faire une bonne idée qualitative de ce qu’elles veulent dire en pensant à un nuage de points des deux variables. Il est clair qu'il n'y a que quatre possibilités (de sorte que le tremblement de secouer des points identiques pour la visualisation est une bonne idée). Par exemple, dans toute situation où les deux vecteurs sont identiques, à condition qu’ils comportent chacun des 0 et des 1, alors par définition, et la corrélation est nécessairement . De même, il est possible que01yX(0,0),(0,1),(1,0),(1,1)y=X1y=1-Xet alors la corrélation est .-1

Pour cette configuration, il n'y a pas de place pour des relations monotones non linéaires. En prenant les rangs de 0 s et 1 s selon la convention habituelle du midrank, les rangs ne sont qu'une transformation linéaire des et s d'origine et la corrélation de Spearman est nécessairement identique à la corrélation de Pearson. Par conséquent, il n’ya aucune raison de considérer la corrélation de Spearman séparément ici ou même du tout.01

Des corrélations apparaissent naturellement pour certains problèmes impliquant et s, par exemple dans l'étude de processus binaires dans le temps ou dans l'espace. Dans l’ensemble, cependant, il y aura de meilleures façons de penser à ces données, dépendant largement du motif principal d’une telle étude. Par exemple, le fait que les corrélations aient beaucoup de sens ne signifie pas que la régression linéaire est un bon moyen de modéliser une réponse binaire. Si l'une des variables binaires est une réponse, la plupart des responsables de la statistique commenceraient par examiner un modèle logit.01

Nick Cox
la source
1
Cela signifie-t-il que, dans cette situation, le coefficient de corrélation de Pearson ou de Spearman n’est pas une bonne mesure de similarité pour ces deux vecteurs binaires?
Zhilong Jia
Oui dans le sens où il ne mesure pas la similarité et n'est pas défini pour tous les 0 ou pour tous les 1 du vecteur.
Nick Cox
Le cas de 2 vecteurs identiques ou «opposés» ne m'est pas clair. Si x = c (1,1,1,1,1) et y = (0,0,0,0,0), alors y = 1-x et on dirait que vous dites que cela doit être le cas par définition , impliquant une corrélation de -1. De même, y = x-1, ce qui implique une corrélation de +1. Il y a seulement 1 point (5 répétitions) sur un diagramme de dispersion, de sorte que toute ligne droite puisse être tracée à travers celui-ci. On a l'impression que la corrélation n'est pas définie dans ce cas. Désolé si j'ai mal compris ce que vous vouliez dire. @ NickCox
PM.
2
Non; Je ne dis pas cela, comme je le souligne dans ma première phrase, vous devez avoir un mélange de 0 et de 1 pour que la corrélation soit définie. Sinon, si le SD de l'une des variables est 0, la corrélation est indéfinie. Mais j'ai modifié ma réponse pour le mentionner deux fois.
Nick Cox
15

Il existe des mesures de similarité spécialisées pour les vecteurs binaires, telles que:

  • Jaccard-Needham
  • Noël
  • Russell-Rao
  • Sokal-Michener
  • Rogers-Tanimoto
  • Kulzinsky

etc.

Pour plus de détails, voir ici .

Digio
la source
5
Il existe sûrement beaucoup de références plus fiables et complètes. Même au niveau de la précision des noms des auteurs, notez Kulczyński et Tanimoto. Voir, par exemple, Hubálek, Z. 1982. Coefficients d'association et de similarité, basés sur des données binaires (présence-absence): une évaluation. Revues biologiques 57: 669–689.
Nick Cox
5
Il est évident qu'ils ont mal orthographié «Tanimoto» mais «Kulzinsky» a été volontairement simplifié. Votre référence est sans doute plus crédible mais elle n’est pas accessible à tout le monde.
Digio
1

Je ne conseillerais pas d'utiliser le coefficient de corrélation de Pearson pour les données binaires, voir le contre-exemple suivant:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

dans la plupart des cas, les deux donnent un 1

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

mais la corrélation ne montre pas cette

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

Une mesure de similarité binaire telle que l’ indice de Jaccard montre cependant une association beaucoup plus élevée:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

Pourquoi est-ce? Voir ici la régression simple à deux variables

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

tracé ci-dessous (petit bruit ajouté pour clarifier le nombre de points) Ligne de régression bivariée

Arne Jonas Warnke
la source