Relation entre les coefficients de corrélation phi, Matthews et Pearson

13

Les coefficients de corrélation phi et Matthews sont-ils le même concept? Comment sont-ils liés ou équivalents au coefficient de corrélation de Pearson pour deux variables binaires? Je suppose que les valeurs binaires sont 0 et 1.


La corrélation de Pearson entre deux variables aléatoires de Bernoulli et est:yxy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Coefficient Phi de Wikipedia:

En statistique, le coefficient phi (également appelé "coefficient de contingence carré moyen" et noté ou ) est une mesure d'association pour deux variables binaires introduites par Karl Pearson. Cette mesure est similaire au coefficient de corrélation de Pearson dans son interprétation. En fait, un coefficient de corrélation de Pearson estimé pour deux variables binaires retournera le coefficient phi ...r ϕϕrϕ

Si nous avons un tableau 2 × 2 pour deux variables aléatoires etyxy

entrez la description de l'image ici

Le coefficient phi qui décrit l'association de et est xy

ϕ=n11n00n10n01n1n0n0n1

Coefficient de corrélation de Matthews de Wikipedia:

Le coefficient de corrélation de Matthews (MCC) peut être calculé directement à partir de la matrice de confusion en utilisant la formule:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

Dans cette équation, TP est le nombre de vrais positifs, TN le nombre de vrais négatifs, FP le nombre de faux positifs et FN le nombre de faux négatifs. Si l'une des quatre sommes du dénominateur est nulle, le dénominateur peut être arbitrairement fixé à un; cela se traduit par un coefficient de corrélation de Matthew de zéro, qui peut être montré comme la valeur limite correcte.

Tim
la source

Réponses:

14

Oui, ils sont pareils. Le coefficient de corrélation de Matthews n'est qu'une application particulière du coefficient de corrélation de Pearson à une table de confusion.

Un tableau de contingence n'est qu'un résumé des données sous-jacentes. Vous pouvez le reconvertir à partir des chiffres indiqués dans le tableau de contingence en une ligne par observation.

Prenons l'exemple de la matrice de confusion utilisée dans l'article de Wikipedia avec 5 vrais positifs, 17 vrais négatifs, 2 faux positifs et 3 faux négatifs

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000
Peter Ellis
la source
Merci, Peter! Mathématiquement, pourquoi phi et Mathew sont-ils équivalents à Pearson pour deux variables aléatoires binaires?
Tim
Si vous prenez la définition de la corrélation de Pearson et la manipulez de manière à ce qu'elle se réfère aux nombres plutôt qu'aux sommes des différences entre les observations individuelles et les moyennes, vous obtenez la formule de Matthews. Je ne l'ai pas fait, mais cela doit être assez simple.
Peter Ellis
2

Tout d'abord, il y avait une erreur de frappe dans la question: n'est pas mais plutôtE[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

Deuxièmement, la clé pour montrer que estρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
ryan tt
la source