J'ai les données avec des variables catégorielles et des variables continues, mais c'est la nécessité de trouver la valeur de l'information dans l'analyse explicative des données.
Donnez simplement la raison pour laquelle nous calculons la valeur de l'information pour chaque variable au début de l'analyse des données et quel sera le point de coupure de la valeur de l'information pour prendre en charge l'analyse
data-visualization
user43247
la source
la source
Réponses:
De manière générale, la valeur de l'information fournit une mesure de l'efficacité d'une variableX est capable de faire la distinction entre une réponse binaire (par exemple "bonne" et "mauvaise") dans une variable cible Y . L'idée est que si une variableX a une faible valeur d'information, il peut ne pas faire un travail suffisant de classification de la variable cible et est donc supprimé en tant que variable explicative.
Pour voir comment cela fonctionne, laissezX être regroupé en n bacs. Chaquex∈X correspond à un y∈Y qui peut prendre l'une des deux valeurs, disons 0 ou 1. Ensuite, pour les bacs Xi , 1≤i≤n ,
où
Dans le contexte de la notation du crédit, ces deux ressources devraient aider:
[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf
[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf
la source