J'ai trois fonctionnalités que j'utilise pour résoudre un problème de classification. À l'origine, ces caractéristiques produisaient des valeurs booléennes, ce qui m'a permis d'évaluer leur redondance en examinant à quel point les ensembles de classifications positives et négatives se chevauchaient. Maintenant, j'ai étendu les fonctionnalités pour produire des valeurs réelles (scores) à la place, et je voudrais analyser à nouveau leur redondance, mais je ne sais absolument pas comment procéder. Quelqu'un peut-il me fournir un pointeur ou une idée sur la façon de procéder?
Je sais que cette question est très vague, c'est parce que je ne connais pas très bien les statistiques. Donc, si vous n'avez pas de réponse pour moi, vous avez peut-être des questions qui peuvent m'aider à mieux me comprendre.
Edit: je suis en train de parcourir Wikipedia sur le sujet, j'ai le sentiment que ce que je veux, c'est un coefficient de corrélation, mais je ne sais toujours pas si c'est la bonne approche, et lequel des nombreux coefficients disponibles est approprié.
Edit 2: Dans le cas booléen, j'ai d'abord créé pour chaque fonctionnalité l'ensemble d'échantillons pour lequel c'était vrai. Ensuite, la corrélation entre deux caractéristiques était la taille de l'intersection de ces ensembles sur la taille de l'union de ces ensembles. Si cette valeur est 1, ils sont complètement redondants, car toujours les mêmes. Si c'est 0, ils ne sont jamais les mêmes.
la source
Réponses:
Cela ressemble à un problème de sélection de fonctionnalités, si tel est le cas, je pense que vous souhaitez calculer les informations mutuelles entre tous les sous-ensembles de fonctionnalités et la sortie de classification. Le sous-ensemble avec les informations mutuelles les plus élevées sera l'ensemble des fonctionnalités qui contiennent le plus «d'informations» sur la classification résultante de l'enregistrement.
Si vous n'avez que 3 fonctionnalités, vous pouvez calculer tous les sous-ensembles possibles dans un délai raisonnable, si votre ensemble de fonctionnalités s'agrandit, vous devrez l'approximer (en utilisant généralement une approche gourmande: prendre la fonctionnalité avec le plus haut MI à chaque étape ).
la source