Le problème se réfère à la construction d'arbres de décision. Selon Wikipedia, le « coefficient de Gini » ne doit pas être confondu avec «l' impureté de Gini ». Cependant, les deux mesures peuvent être utilisées lors de la construction d'un arbre de décision - elles peuvent soutenir nos choix lors de la division de l'ensemble des éléments.
1) «impureté de Gini» - il s'agit d'une métrique de fractionnement d'arbre de décision standard (voir dans le lien ci-dessus);
2) «coefficient de Gini» - chaque fractionnement peut être évalué sur la base du critère AUC. Pour chaque scénario de fractionnement, nous pouvons construire une courbe ROC et calculer la métrique AUC. Selon Wikipedia AUC = (GiniCoeff + 1) / 2;
La question est: ces deux mesures sont-elles équivalentes? D'une part, je suis informé que le coefficient de Gini ne doit pas être confondu avec l'impureté de Gini. D'un autre côté, ces deux mesures peuvent être utilisées pour faire la même chose - évaluer la qualité d'une division d'arbre de décision.
la source
Réponses:
Non, malgré leurs noms, ils ne sont pas équivalents ni même similaires.
Les deux pourraient être appliqués dans certains cas, mais ce sont des mesures différentes pour des choses différentes. L'impureté est ce qui est couramment utilisé dans les arbres de décision .
la source
J'ai pris un exemple de données avec deux personnes A et B avec une richesse de l'unité 1 et de l'unité 3 respectivement. Gini Impureté selon Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
Le coefficient de Gini selon Wikipedia serait le rapport de l'aire entre la ligne rouge et bleue à l'aire totale sous la ligne bleue dans le graphique suivant
L'aire sous la ligne rouge est 1/2 + 1 + 3/2 = 3
Surface totale sous la ligne bleue = 4
Coefficient de Gini = 3/4
De toute évidence, les deux nombres sont différents. Je vais vérifier plus de cas pour voir s'ils sont proportionnels ou s'il existe une relation exacte et modifier la réponse.
Edit: j'ai aussi vérifié d'autres combinaisons, le rapport n'est pas constant. Voici une liste de quelques combinaisons que j'ai essayées.
la source
Je pense qu'ils représentent tous les deux le même concept.
Dans les arbres de classification, l'indice de Gini est utilisé pour calculer l'impureté d'une partition de données. Supposons donc la partition de données D composée de 4 classes chacune avec une probabilité égale. L'indice Gini (impureté Gini) sera alors: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)
Dans CART, nous effectuons des divisions binaires. Ainsi, l'index gini sera calculé comme la somme pondérée des partitions résultantes et nous sélectionnons la division avec le plus petit index gini.
L'utilisation de Gini Impurity (Gini Index) n'est donc pas limitée aux situations binaires.
Un autre terme pour Gini Impureté est le coefficient de Gini qui est utilisé normalement comme mesure de la distribution des revenus.
la source