Pourquoi et quand utiliser les informations mutuelles sur des mesures de corrélation statistique telles que "Pearson", "spearman" ou "Kendall's
l'information mutuelle est un concept issu de la théorie de l'information. Il s'agit d'une mesure de la dépendance conjointe entre deux variables aléatoires, qui n'est pas, comme le coefficient de corrélation habituel, limitée aux variables scalaires.
Pourquoi et quand utiliser les informations mutuelles sur des mesures de corrélation statistique telles que "Pearson", "spearman" ou "Kendall's
Plus récemment, j'ai lu deux articles. Le premier concerne l'historique de la corrélation et le second concerne la nouvelle méthode appelée coefficient d'information maximal (MIC). J'ai besoin de votre aide pour comprendre la méthode MIC pour estimer les corrélations non linéaires entre les...
Supposons que j'ai deux ensembles XXX et YYY et une distribution de probabilité conjointe sur ces ensembles p(x,y)p(x,y)p(x,y) . Soit p(x)p(x)p(x) et p(y)p(y)p(y) les distributions marginales sur XXX et YYY respectivement. Les informations mutuelles entre XXX et YYY sont définies comme suit:...
ma question s'applique particulièrement à la reconstruction du
Je travaille avec l'information mutuelle depuis un certain temps. Mais j'ai trouvé une mesure très récente dans le "monde de corrélation" qui peut également être utilisée pour mesurer l'indépendance de distribution, la soi-disant "corrélation de distance" (également appelée corrélation brownienne):...
Les tests de permutation (également appelés test de randomisation, test de re-randomisation ou test exact) sont très utiles et s'avèrent utiles lorsque l'hypothèse de distribution normale requise par exemple t-testn'est pas remplie et lorsque la transformation des valeurs par classement des un test...
En regardant les vecteurs propres de la matrice de covariance, nous obtenons les directions de variance maximale (le premier vecteur propre est la direction dans laquelle les données varient le plus, etc.); c'est ce qu'on appelle l'analyse en composantes principales (ACP). Je me demandais ce que...
Quant au titre, l'idée est d'utiliser des informations mutuelles, ici et après MI, pour estimer la "corrélation" (définie comme "tout ce que je sais sur A quand je connais B") entre une variable continue et une variable catégorielle. Je vais vous dire mes réflexions sur la question dans un instant,...
Pourrait l'information mutuelle sur l'entropie conjointe: 0≤I(X,Y)H(X,Y)≤10≤I(X,Y)H(X,Y)≤1 0 \leq \frac{I(X,Y)}{H(X,Y)} \leq 1 être défini comme: "La probabilité de transmettre une information de X à Y"? Je suis désolé d'être si naïf, mais je n'ai jamais étudié la théorie de l'information, et...
Une façon de générer des incorporations de mots est la suivante ( miroir ): Obtenez un corpus, par exemple: "J'aime voler. J'aime la PNL. J'aime le deep learning." Construisez le mot matrice de cooccurrence à partir de lui: Effectuez SVD sur XXX et conservez les kkk premières colonnes de U. U1 : |...
J'ai un doute très basique. Désolé si cela dérange peu. Je sais que la valeur des informations mutuelles doit être supérieure à 0, mais doit-elle être inférieure à 1? Est-il limité par une valeur supérieure? Merci,
Ici, le «poids de la preuve» (WOE) est un terme courant dans la littérature scientifique et politique publiée, le plus souvent vu dans le contexte de l'évaluation des risques, défini par: w ( e : h ) = logp ( e | h )p ( e | h¯¯¯)w(e:h)=logp(e|h)p(e|h¯)w(e : h) =
J'ai vu quelques discussions de non-statisticiens où ils semblent réinventer des mesures de corrélation en utilisant des informations mutuelles plutôt que de régression (ou des tests statistiques équivalents / étroitement liés). Je suppose qu'il y a une bonne raison pour laquelle les statisticiens...
Je suis un peu confus. Quelqu'un peut-il m'expliquer comment calculer des informations mutuelles entre deux termes en se basant sur une matrice terme-document avec une occurrence de terme binaire comme poids?
J'essaie d'appliquer l'idée d'information mutuelle à la sélection des fonctionnalités, comme décrit dans ces notes de cours (à la page 5). Ma plateforme est Matlab. Un problème que je trouve lors du calcul d'informations mutuelles à partir de données empiriques est que le nombre est toujours biaisé...
Je veux quantifier la relation entre deux variables, A et B, en utilisant des informations mutuelles. Le moyen de le calculer est de regrouper les observations (voir l'exemple de code Python ci-dessous). Cependant, quels facteurs déterminent quel nombre de bacs est raisonnable? J'ai besoin que le...
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences observées de mes quatre événements (18), je peux calculer...
J'ai du mal à construire une intuition sur l'entropie conjointe. = incertitude dans la distribution conjointe ; = incertitude dans ; = incertitude dans .H(X,Y)H(X,Y)H(X,Y)p(x,y)p(x,y)p(x,y)H(X)H(X)H(X)px(x)px(x)p_x(x)H(Y)H(Y)H(Y)py(y)py(y)p_y(y) Si H (X) est élevé, alors la distribution est plus...
J'essaie de comprendre la forme normalisée d'informations mutuelles ponctuelles. npmi=pmi(x,y)log(p(x,y))npmi=pmi(x,y)log(p(x,y))npmi = \frac{pmi(x,y)}{log(p(x,y))} Pourquoi la probabilité log-jointe normalise-t-elle les informations mutuelles ponctuelles entre [-1, 1]? L'information mutuelle point...
Quelle est la différence entre la corrélation croisée et l'information mutuelle. Quels types de problèmes peuvent être résolus en utilisant ces mesures et quand est-il approprié de les utiliser les uns par rapport aux autres. Merci pour les commentaires. Pour clarifier, la question est suscitée par...