J'étudie les arbres de classification et de régression, et l'une des mesures pour l'emplacement divisé est le score GINI.
Maintenant, je suis habitué à déterminer le meilleur emplacement divisé lorsque le log du rapport de vraisemblance des mêmes données entre deux distributions est nul, ce qui signifie que la probabilité d'appartenance est également probable.
Mon intuition dit qu'il doit y avoir une connexion quelconque, que GINI doit avoir une bonne base dans une théorie mathématique de l'information (Shannon) mais je ne comprends pas assez bien GINI pour dériver la relation moi-même.
Des questions:
- Quelle est la dérivation des «premiers principes» du score d'impureté GINI comme mesure de fractionnement?
- Comment le score GINI est-il lié au logarithme du rapport de vraisemblance ou à d'autres principes théoriques de l'information (Shannon Entropy, pdf , et entropie croisée en font partie)?
Les références:
- Comment est défini le critère de Gini pondéré?
- Mathématiques derrière les arbres de classification et de régression
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(ajouté) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
L'entropie de Shannon est décrite comme suit:
En étendant cela au cas multivarié, nous obtenons:
L'entropie conditionnelle est définie comme suit:
Le logarithme du rapport des probabilités est utilisé pour la détection de changements brusques et est dérivé en utilisant ces derniers. (Je n'ai pas de dérivation devant moi.)
Impureté GINI:
- La forme générale de l'impureté GINI est
Pensées:
- Le fractionnement se fait sur une mesure d'impureté. Une "pureté" élevée est probablement la même chose qu'une faible entropie. L'approche est probablement liée à la minimisation de l'entropie.
- Il est probable que la distribution de base supposée soit uniforme, ou peut-être avec un gaussien ondulant à la main. Ils font probablement un mélange de distributions.
- Je me demande si la dérivation du graphique Shewhart peut s'appliquer ici?
- L'impureté GINI ressemble à l'intégrale de la fonction de densité de probabilité pour une distribution binomiale avec 2 essais et un succès.
(Additionnel)
- La forme est également cohérente avec une distribution bêta-binomiale qui est un conjugué antérieur à une distribution hypergéométrique. Les tests hypergéométriques sont souvent utilisés pour déterminer quels échantillons sont sur ou sous-représentés dans un échantillon. Il existe également une relation avec le test exact de Fisher, quel qu'il soit (note à moi-même, allez en savoir plus à ce sujet).
Edit: je soupçonne qu'il existe une forme de GINI qui fonctionne très bien avec la logique numérique et / ou les arbres rb. J'espère explorer cela dans un projet de classe cet automne.
la source
Réponses:
Je vais utiliser la même notation que j'ai utilisée ici: Mathématiques derrière les arbres de classification et de régression
Gini Gain et Information Gain (IG I
Selon la communauté (statistiques / exploration de données), les gens préfèrent une mesure ou l'autre (question connexe ici ). Ils pourraient être à peu près équivalents dans le processus d'induction de l'arbre de décision. La vraisemblance du journal peut donner des scores plus élevés aux partitions équilibrées lorsqu'il existe de nombreuses classes [Note technique: certaines propriétés des critères de fractionnement. Breiman 1996].
Gini Gain peut être plus agréable car il n'a pas de logarithmes et vous pouvez trouver la forme fermée pour sa valeur et sa variance attendues sous l'hypothèse de répartition aléatoire [Alin Dobra, Johannes Gehrke: Correction de biais dans la construction d'arbres de classification. ICML 2001: 90-97]. Ce n'est pas aussi facile pour le gain d'informations (si vous êtes intéressé, voir ici ).
la source
Bonne question. Malheureusement, je n'ai pas encore assez de réputation pour voter ou commenter, alors répondez à la place!
Je ne connais pas très bien le test de rapport, mais il me semble qu'il s'agit d'un formalisme utilisé pour comparer la probabilité que des données proviennent de deux (ou plus) distributions différentes , tandis que le coefficient de Gini est une statistique récapitulative d'une seule distribution.
Une manière utile de penser le coefficient de Gini (IMO) est comme l'aire sous la courbe de Lorenz (liée au cdf).
Il peut être possible d'assimiler l'entropie de Shannon à Gini en utilisant la définition donnée dans l'OP pour l'entropie:
et la définition de Gini:
Cela ne semble pas être une tâche facile!
la source