Comment quantifier la redondance des fonctionnalités?

10

J'ai trois fonctionnalités que j'utilise pour résoudre un problème de classification. À l'origine, ces caractéristiques produisaient des valeurs booléennes, ce qui m'a permis d'évaluer leur redondance en examinant à quel point les ensembles de classifications positives et négatives se chevauchaient. Maintenant, j'ai étendu les fonctionnalités pour produire des valeurs réelles (scores) à la place, et je voudrais analyser à nouveau leur redondance, mais je ne sais absolument pas comment procéder. Quelqu'un peut-il me fournir un pointeur ou une idée sur la façon de procéder?

Je sais que cette question est très vague, c'est parce que je ne connais pas très bien les statistiques. Donc, si vous n'avez pas de réponse pour moi, vous avez peut-être des questions qui peuvent m'aider à mieux me comprendre.

Edit: je suis en train de parcourir Wikipedia sur le sujet, j'ai le sentiment que ce que je veux, c'est un coefficient de corrélation, mais je ne sais toujours pas si c'est la bonne approche, et lequel des nombreux coefficients disponibles est approprié.

Edit 2: Dans le cas booléen, j'ai d'abord créé pour chaque fonctionnalité l'ensemble d'échantillons pour lequel c'était vrai. Ensuite, la corrélation entre deux caractéristiques était la taille de l'intersection de ces ensembles sur la taille de l'union de ces ensembles. Si cette valeur est 1, ils sont complètement redondants, car toujours les mêmes. Si c'est 0, ils ne sont jamais les mêmes.

Björn Pollex
la source
cela aiderait si vous fournissiez un exemple de la façon dont définissez-vous la redondance dans le cas booléen, et quel genre de résultats vous attendez dans le cas continu
mpiktas
@mpiktas: Modifiez ma question en réponse à votre commentaire.
Björn Pollex,

Réponses:

4

Cela ressemble à un problème de sélection de fonctionnalités, si tel est le cas, je pense que vous souhaitez calculer les informations mutuelles entre tous les sous-ensembles de fonctionnalités et la sortie de classification. Le sous-ensemble avec les informations mutuelles les plus élevées sera l'ensemble des fonctionnalités qui contiennent le plus «d'informations» sur la classification résultante de l'enregistrement.

Si vous n'avez que 3 fonctionnalités, vous pouvez calculer tous les sous-ensembles possibles dans un délai raisonnable, si votre ensemble de fonctionnalités s'agrandit, vous devrez l'approximer (en utilisant généralement une approche gourmande: prendre la fonctionnalité avec le plus haut MI à chaque étape ).

pseudo
la source
2
(+1) pour l'information mutuelle. Remarque supplémentaire: a) Je suggère le gain d'information comme cas spécial d'information mutuelle. b) La sélection automatique des fonctionnalités supprimera non seulement les fonctionnalités redondantes mais également toutes les fonctionnalités qui ont un impact négatif sur la discrimination de classe.
steffen
Merci! Cela semble très prometteur, je vais y réfléchir.
Björn Pollex,