Pourquoi calculons-nous la valeur des informations?

10

J'ai les données avec des variables catégorielles et des variables continues, mais c'est la nécessité de trouver la valeur de l'information dans l'analyse explicative des données.

Donnez simplement la raison pour laquelle nous calculons la valeur de l'information pour chaque variable au début de l'analyse des données et quel sera le point de coupure de la valeur de l'information pour prendre en charge l'analyse

user43247
la source
2
Veuillez nous dire plus précisément à quoi se réfère le calcul de la "valeur d'information": il ne semble pas y avoir de signification quantitative normalisée pour ce terme que tous les lecteurs comprendront de la même manière. Lorsque vous modifiez votre question, veuillez également fournir plus de contexte pour nous aider à comprendre le type d'analyse dont vous discutez et à quoi sert le "point de coupure".
whuber

Réponses:

11

De manière générale, la valeur de l'information fournit une mesure de l'efficacité d'une variable X est capable de faire la distinction entre une réponse binaire (par exemple "bonne" et "mauvaise") dans une variable cible Y. L'idée est que si une variableX a une faible valeur d'information, il peut ne pas faire un travail suffisant de classification de la variable cible et est donc supprimé en tant que variable explicative.

Pour voir comment cela fonctionne, laissez X être regroupé en nbacs. ChaquexX correspond à un yY qui peut prendre l'une des deux valeurs, disons 0 ou 1. Ensuite, pour les bacs Xi, 1in,

IV=i=1n(gibi)ln(gi/bi)

bi=(# de 0'péché Xi)/(# de 0'péché X)= la proportion de 0est dans le bac i contre tous les bacs

gi=(# de 1'péché Xi)/(# de 1'péché X)= la proportion de 1est dans le bac i contre tous les bacs

ln(gi/bi) est également connu comme le poids de la preuve (pour bin Xi). Les valeurs limites peuvent varier et la sélection est subjective. J'utilise souventIV<0.3 (comme le fait [1] ci-dessous).

Dans le contexte de la notation du crédit, ces deux ressources devraient aider:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf

dmanuge
la source
1
Connaissez-vous une sorte de correction pour le calcul de la valeur des informations lorsque l'un des bacs est tout bon ou tout mauvais? Mon idée est d'ajouter 1 à chaque colonne de chaque bac pour corriger cette situation. Je me demande s'il s'agit d'une pratique courante ou s'il y a d'autres préoccupations théoriques. Je considère surtout cette sortie de pragmatisme.
Zelazny7
J'ai vu certains pratiquants retirer le terme avec tout bon ou tout mauvais de la sommation, mais je ne recommanderais pas cela parce que vous annuleriez essentiellement une association parfaite. Ajouter une constante (disons c) est une solution intéressante, mais le choix, la constante et la taille du bac affecteront grandement votre IV. Lorsque c s'approche de 0 ou que la taille du bac s'approche de l'infini, le IV s'approche de l'infini. Pour obtenir une IV plus représentative, vous voudrez peut-être envisager de combiner des bacs adjacents qui ont tous les biens ou tous les mauvais.
dmanuge