Utilisation d'informations mutuelles pour estimer la corrélation entre une variable continue et une variable catégorielle

Quant au titre, l'idée est d'utiliser des informations mutuelles, ici et après MI, pour estimer la "corrélation" (définie comme "tout ce que je sais sur A quand je connais B") entre une variable continue et une variable catégorielle. Je vais vous dire mes réflexions sur la question dans un instant, mais avant de vous conseiller de lire cette autre question / réponse sur CrossValidated car elle contient des informations utiles.

Maintenant, parce que nous ne pouvons pas intégrer une variable catégorielle, nous devons discrétiser la variable continue. Cela peut être fait assez facilement en R, qui est le langage avec lequel j'ai fait la plupart de mes analyses. J'ai préféré utiliser la cutfonction, car elle alias également les valeurs, mais d'autres options sont également disponibles. Le fait est qu'il faut décider a priori du nombre de "bins" (états discrets) avant de pouvoir procéder à toute discrétisation.

Le problème principal, cependant, est un autre: MI varie de 0 à ∞, car il s'agit d'une mesure non standardisée de l'unité qui est le bit. Cela rend très difficile son utilisation comme coefficient de corrélation. Ceci peut être partiellement résolu en utilisant le coefficient de corrélation global , ici et après GCC, qui est une version standardisée de MI; GCC est défini comme suit:

entrez la description de l'image ici

Référence: la formule est tirée de Mutual Information as an Nonlinear Tool for Analyzing Stock Market Globalization par Andreia Dionísio, Rui Menezes & Diana Mendes, 2010.

Le GCC varie de 0 à 1 et peut donc facilement être utilisé pour estimer la corrélation entre deux variables. Problème résolu, non? Bon type de. Parce que tout ce processus dépend fortement du nombre de «bacs» que nous avons décidé d'utiliser lors de la discrétisation. Voici les résultats de mes expériences:

entrez la description de l'image ici

Sur l'axe des y, vous avez GCC et sur l'axe des x, vous avez le nombre de «bacs» que j'ai décidé d'utiliser pour la discrétisation. Les deux lignes font référence à deux analyses différentes que j'ai menées sur deux ensembles de données différents (bien que très similaires).

Il me semble que l'utilisation du MI en général et du GCC en particulier est toujours controversée. Pourtant, cette confusion peut être le résultat d'une erreur de mon côté. Dans les deux cas, j'aimerais avoir votre avis sur la question (avez-vous également des méthodes alternatives pour estimer la corrélation entre une variable catégorielle et une variable continue?).

correlation information-theory mutual-information Edgar Derby
la source

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

BTW, voici le code au cas où quelqu'un voudrait essayer la méthode de binning.

zkurtz

Vous n'évaluez pas la "corrélation". Vous estimez les informations mutuelles. L'un n'évalue pas l'autre; ce sont des mesures distinctes du concept plus général d' association .

zkurtz

Peut-être un meilleur titre pour cet article est "Comment mieux regrouper une variable continue pour estimer ses informations mutuelles avec une variable catégorielle?"

zkurtz

Voici une approche non binning intéressante. Malheureusement, je ne trouve pas d'implémentation R.

zkurtz

Réponses:

Il existe un moyen plus simple et meilleur de résoudre ce problème. Une variable catégorielle n'est en fait qu'un ensemble de variables indicatrices. C'est une idée fondamentale de la théorie de la mesure qu'une telle variable est invariante à la réétiquetage des catégories, il n'est donc pas logique d'utiliser l'étiquetage numérique des catégories dans toute mesure de la relation entre une autre variable (par exemple, «corrélation») . Pour cette raison, la mesure de la relation entre une variable continue et une variable catégorielle doit être entièrement basée sur les variables indicatrices dérivées de cette dernière.

$X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

qui donne:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$X$ $I$ $\phi$ $X$ $I=1$

$C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

$\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

$\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

$(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

$X$

Ben - Réintègre Monica
la source